Ciencia de datos

Compartir:

Las preguntas de esta sección se mostraron a desarrolladores involucrados en inteligencia de negocio, análisis de datos, ingeniería de datos, aprendizaje automático, o a aquellos cuyo rol de trabajo era analista de datos, ingeniero de datos, científico de datos o analista de negocio.

¿Qué tipo de actividad es para usted la ciencia de datos, el análisis de datos o el aprendizaje automático?

Un número considerable de encuestados parece estar compaginando las responsabilidades de la ciencia de datos con otras actividades. Estas conclusiones sugieren que se está produciendo una democratización del campo, lo que implica oportunidades potenciales para el crecimiento del mercado de la ciencia de datos.

¿Cuenta su equipo o departamento de datos con un puesto específico de ingeniero de aprendizaje automático?

PyCharm

Un IDE de Python todo en uno para crear procesos de datos, analizar datos, generar prototipos y desplegar modelos de ML con una excelente compatibilidad con Python, bibliotecas científicas, cuadernos Jupyter interactivos, Anaconda, bases de datos SQL y NoSQL, y mucho más.

¿Qué tipos de datos analiza?

¿En cuáles de las siguientes actividades participa?

¿Qué tipo de gráfico utiliza más para las visualizaciones de datos?

La mayoría de los profesionales de la ciencia de datos encuentra valor en el empleo de gráficos probados para la exploración y presentación de datos. Estos tipos de gráficos se utilizan en gran medida en diversas tareas relacionadas con los datos, como la recopilación de datos, el análisis exploratorio de datos, la orquestación de datos y las operaciones de aprendizaje automático.

Datalore

Datalore de JetBrains es una plataforma colaborativa de ciencia de datos y analítica para equipos, accesible directamente desde el navegador. Los notebooks Datalore son compatibles con Jupyter y ofrecen asistencia a la codificación inteligente para notebooks Python, SQL, R y Scala, así como visualizaciones sin código y limpieza y transformación de datos. El generador de informes de Datalore permite a los equipos convertir un notebook lleno de código y experimentos en una historia clara y basada en datos. Los equipos pueden compartir notebooks, editarlos juntos en tiempo real y organizar sus proyectos en espacios de trabajo.

¿Cuenta su equipo o departamento de datos con un puesto específico de ingeniero de datos?

Cerca de la mitad de los equipos y departamentos cuentan con un ingeniero de datos o de aprendizaje automático dedicado.

¿Cómo aprendió ciencia de datos, aprendizaje automático o ingeniería de datos?

Los roles especializados como científico de datos, ingeniero de datos e ingeniero de aprendizaje automático son incorporaciones relativamente recientes al mercado laboral. Muchos de los encuestados pasan a desempeñar estas funciones desde campos relacionados, lo que hace necesaria la adquisición de nuevas competencias a través del autoaprendizaje o de cursos en línea.

Incluyéndose a usted, ¿cuántos miembros conforman su equipo de datos?

Más del 50 % de los que trabajan con datos lo hacen en equipos de cinco o más personas.

¿Qué IDE o editores utiliza para la ciencia de datos o el análisis de datos?

¿Cuánto tiempo de trabajo pasa dentro de notebooks?

¿Para qué utiliza notebooks?

¿Versiona sus notebooks?

¿Qué herramientas de control de versiones utiliza?

Aunque la mayoría de los profesionales de la ciencia de datos no versiona sus notebooks, una proporción considerable (41 %) opta por hacerlo, y la mayoría de ellos elige Git o GitHub para el versionado.

¿Qué herramientas utiliza para presentar los resultados de su investigación?

Varias implementaciones de los Jupyter Notebooks son muy populares en la ciencia de datos, con casos de uso comunes que incluyen el análisis exploratorio de datos, la experimentación con datos y la consulta de datos, así como la creación de prototipos de modelos. Aproximadamente el 40 % de los profesionales de la ciencia de datos utiliza Jupyter Notebooks para presentar los resultados de su trabajo, pero, curiosamente, muchos (casi el 50 %) dedican solo entre el 10 % y el 20 % de su tiempo a utilizar Jupyter Notebooks.

¿Qué tipo de recursos informáticos utiliza para tareas de ciencia de datos?

La mayoría de los encuestados confía en los recursos locales para su trabajo de ciencia de datos.

¿Con qué tipo de fuentes de datos trabaja?

Aunque la mayoría utiliza archivos locales, la proporción de los que utilizan bases de datos SQL creció 10 puntos porcentuales durante el año pasado, lo que pone de relieve la importancia de SQL para la ciencia de datos.

¿Qué tipo de datos utiliza más?

¿Utiliza datos sintéticos en su trabajo?

La mayoría de los científicos de datos encuestados procesa datos recopilados a medida, siendo los tipos de datos más frecuentes los datos transaccionales, los datos de series temporales, las imágenes y los datos generados por máquinas. Curiosamente, el 30 % trabaja con datos sintéticos, es decir, datos fabricados artificialmente en lugar de generados por acontecimientos del mundo real.

¿Entrena modelos de aprendizaje automático o aprendizaje profundo?

Aproximadamente el 40 % de todos los encuestados entrena modelos de aprendizaje automático o profundo. Sin embargo, esta cifra salta a más del 60 % entre los que consideran el trabajo con datos como su actividad principal. Esta tendencia del sector implica que el modelado predictivo se está convirtiendo en el aspecto central del trabajo con datos.

¿Con qué frecuencia vuelve a entrenar o actualiza sus modelos de aprendizaje automático?

¿Cuánto tiempo dedica cada mes al entrenamiento de modelos?

Aunque la mitad de los profesionales de la ciencia de datos vuelve a entrenar o actualiza sus modelos de aprendizaje automático al menos una vez al mes, la mayoría dedica menos de 20 horas mensuales a esta tarea.

¿Utiliza GPU para entrenar sus modelos?

La mayoría (el 81 %) de los profesionales de la ciencia de datos utiliza GPU para el entrenamiento de modelos. El uso eficiente de los procesadores gráficos puede acelerar el entrenamiento y mejorar así el rendimiento de los modelos, lo que los convierte en un recurso cada vez más atractivo para investigadores y especialistas en datos. Esto también pone de relieve la importancia y relevancia de las innovaciones tecnológicas en el mundo del aprendizaje automático.

¿Cuánta VRAM necesita normalmente para sus tareas de aprendizaje automático?

Una mayor potencia de computación es una tendencia clara para las tareas de aprendizaje automático. Casi el 80 % de los profesionales de la ciencia de datos utiliza ahora 16 GB o más de VRAM, mientras que la proporción de los que utilizan 8 GB se redujo en seis puntos porcentuales a lo largo del último año.

¿Qué tipo de métodos y algoritmos utiliza?

Los algoritmos básicos del aprendizaje automático, como la regresión y los métodos basados en árboles, siguen prevaleciendo, aunque un número significativo de profesionales de la ciencia de datos también adoptan las redes neuronales. La creciente popularidad y facilidad de uso de las redes neuronales podría explicar por qué el 30 % de los encuestados realiza tareas de procesamiento del lenguaje natural (PLN). Curiosamente, solo el 24 % de los participantes afirmó utilizar pruebas estadísticas en su trabajo, lo que indica que el aprendizaje automático y el aprendizaje profundo han superado a la estadística clásica como competencias fundamentales en materia de datos.

¿Qué soluciones empresariales de aprendizaje automático utiliza?

Los servicios de Amazon destacan como las soluciones empresariales en la nube más populares. Notablemente, se ha producido un aumento significativo (de más de 10 puntos porcentuales) en la adopción de soluciones empresariales de aprendizaje automático en comparación con el año anterior.

¿Qué marcos de trabajo de aprendizaje automático utiliza?

TensorFlow se sitúa ligeramente por delante de scikit-learn y PyTorch en popularidad, mientras que Keras y XGBoost también muestran sólidas tasas de adopción. Curiosamente, una proporción significativa de los encuestados (19 %) declaró no utilizar ningún marco de trabajo específico.

¿Qué herramientas utiliza para el seguimiento de los experimentos de entrenamiento de modelos?

TensorBoard es la herramienta más utilizada, con una cuota del 23 %, seguida de MLFlow con un 10 % y WandB con un 7 %. Sin embargo, dos tercios de los profesionales de la ciencia de datos no está utilizando ninguna herramienta específica para el seguimiento de sus experimentos de entrenamiento de modelos.

¿Cuál de las siguientes opciones describe mejor el uso del aprendizaje automático en su organización?

El aprendizaje automático y la IA se han convertido en componentes cruciales de la vida empresarial diaria, por lo que no debería sorprendernos que casi la mitad de nuestros encuestados utilicen diversas funciones basadas en la IA integradas en el software que utilizan.

¿Qué soluciones empresariales en la nube utiliza?

¿Cuáles de las siguientes actividades basadas en datos son las más difíciles de realizar para usted o su organización?

Como promedio, ¿qué porcentaje del tiempo de su equipo se dedica a gestionar, limpiar o etiquetar datos?

¿Qué herramientas utiliza para la limpieza de datos?

La calidad de los datos es un problema habitual de los profesionales y las organizaciones que trabajan con datos, ya que casi el 50 % dedica el 30 % de su tiempo o más a la preparación de los datos. Un estudio de Anaconda también confirma que la limpieza de datos se perfila como el aspecto que más tiempo consume en el flujo de trabajo de los profesionales de los datos. Casi la mitad de nuestros encuestados opta por entornos de desarrollo integrados (IDE) para gestionar este tipo de tareas.

Ciencia de datos:

2023

¡Gracias por el tiempo que nos ha dado!

Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.

Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.