Ciencia de datos
Compartir:
Las preguntas de esta sección se mostraron a desarrolladores involucrados en inteligencia de negocio, análisis de datos, Ingeniería de datos, aprendizaje automático, o a aquellos cuyo rol de trabajo era analista de datos, ingeniero de datos, científico de datos o analista de negocio.
Un número bastante elevado de los encuestados combina sus responsabilidades en el ámbito de la ciencia de datos con otras actividades. Estos resultados indican que se ha producido una democratización de este ámbito y que existe potencial de crecimiento del mercado.
En JetBrains creamos Datalore, una plataforma colaborativa de ciencia de datos para equipos. Al tiempo que ofrece una excelente experiencia de codificación para los profesionales de datos, Datalore también aporta automatizaciones sin código para los flujos de trabajo de exploración y visualización de datos. Esto significa que incluso los usuarios no técnicos pueden redactar informes ad hoc y visualizar datos en la misma herramienta que el equipo de datos principal.
Los puestos especializados en datos, como los de científico de datos, ingeniero de datos e ingeniero de aprendizaje automático, son relativamente nuevos. Muchos de nuestros encuestados accedieron a estos puestos después de trabajar o formarse en campos adyacentes, por lo que necesitaron actualizar sus conocimientos mediante estudios independientes o cursos en línea. Si bien los títulos de posgrado en STEM han sido tradicionalmente el camino más común hacia la ciencia de datos o el aprendizaje automático, las tendencias de los últimos siete años muestran que un número cada vez mayor de personas que trabajan en estas áreas accedió con una licenciatura, aumentando del 20 % en 2015 al 31 % en 2021. A medida que aumenta el número de personas que se gradúan en nuevos programas de grado especializados en habilidades relacionadas con los datos, es posible que veamos cómo estos resultados cambian a favor de las personas que obtuvieron estas habilidades a través de la educación formal.
Los Jupyter Notebooks se impusieron como el editor preferido para la ciencia de datos y el trabajo de análisis de datos, con alrededor del 40 % de los encuestados indicando que utilizaban notebooks para estas actividades. Este resultado fue incluso mayor entre los encuestados que afirmaron realizar tareas de recopilación y visualización de datos, análisis exploratorio de datos o modelado de aprendizaje automático, con un 70 % de los encuestados que afirmaron utilizar Jupyter Notebooks.
Infórmese más sobre este tema con nuestra investigación reciente. Descubrimos que de 2019 a 2020, el número de notebooks Python 3 creció un 87 %, y el número de notebooks Python 2 aumentó un 12 %.
Los Jupyter Notebooks siguen siendo una de las herramientas más populares, ya que el 42 % de los encuestados los utiliza y más del 50 % de los que lo hacen citan el trabajo con datos como su actividad principal. Se utilizan principalmente para el trabajo exploratorio, como la exploración de datos y la creación de prototipos de modelos. Sin embargo, incluso entre los que trabajan principalmente como especialistas en datos, solo una minoría de los encuestados utiliza notebooks durante más del 40 % de su tiempo de trabajo.
El porcentaje de los que versionan sus notebooks es bastante elevado, lo cual es una buena señal, ya que indica que una gran proporción de profesionales de los datos ven los notebooks como código que requiere mantenimiento. Las herramientas más populares entre quienes versionan sus notebooks son Git y GitHub.
Versionar Jupyter Notebooks a través de la interfaz de línea de comandos (CLI) de Git puede ser difícil. Afortunadamente DataSpell goza de una amplia gama de funcionalidades para trabajar con Git, por lo que es fácil realizar tareas esenciales a través de la interfaz de usuario, tales como la creación de un repositorio, añadir notebooks y hacer push con ellos, y ver las diferencias entre las confirmaciones de los notebooks. ¡Todo sin tener que recordar un solo comando Git! Eche un vistazo a este artículo para obtener más información sobre cómo utilizar Git con Jupyter Notebooks en DataSpell.
Además de los archivos locales, las bases de datos SQL siguen siendo las fuentes de datos más utilizadas entre los especialistas en datos.
Con Datalore puede convertir Jupyter Notebooks en hermosas aplicaciones de datos en cuestión de segundos. Organice las celdas en el lienzo y publique el resultado en modo estático o interactivo. Los interesados podrán acceder al informe a través de un enlace.
Ver un informeLos algoritmos básicos de aprendizaje automático, como la regresión y los métodos basados en árboles, siguen utilizándose en gran medida. Sin embargo, la mayoría de los encuestados también utiliza redes neuronales, especialmente arquitecturas de transformadores. La mayor facilidad de uso y la creciente popularidad de las redes de transformadores también pueden explicar por qué más de una cuarta parte de los encuestados afirmó realizar trabajos de PNL. Curiosamente, solo una quinta parte de los encuestados declaró utilizar pruebas estadísticas como parte de su trabajo, lo que sugiere que el aprendizaje profundo y el aprendizaje automático ha superado a la estadística clásica como habilidad básica de datos.
TensorFlow fue el marco de aprendizaje profundo más popular entre todos los encuestados, aunque este y PyTorch fueron utilizados por igual por los encuestados que realizan trabajo con datos como actividad principal. Scikit-learn fue la biblioteca de aprendizaje automático más popular, aunque los paquetes y marcos especializados para el modelado basado en árboles, como XGBoost y LightGBM, fueron utilizados por una notable minoría de participantes.
Los servicios de Amazon son las soluciones empresariales en la nube más populares.
La mayoría de los encuestados (el 70 %) trabaja en grupos pequeños, con no más de 10 personas en un equipo. Uno de cada cinco trabaja en un equipo con más de 15 especialistas en datos.
Casi el 50 % de los equipos o departamentos cuentan con un puesto específico de ingeniero de datos.
Algo más del 50 % de los encuestados indicaron que sus equipos cuentan con ingenieros de datos o ingenieros de aprendizaje automático dedicados. Tanto el de ingeniero de datos como el de ingeniero de aprendizaje automático son títulos amplios que pueden variar mucho en función de la empresa, por lo que es posible que las personas que desempeñan cualquiera de estas funciones sean responsables de tareas similares relacionadas con el aprendizaje automático, como la implementación de modelos y la gestión de procesos de datos. Como era de esperar, cuanto más grande es un equipo, más probable es que haya personas trabajando en una de estas funciones. Más del 80 % de los encuestados en equipos de datos con 1-2 miembros no contaban ni con un ingeniero de datos dedicado ni con un ingeniero de aprendizaje automático, mientras que el 79 % de los encuestados en equipos de datos con más de 15 personas sí contaban con ingenieros de datos dedicados, y el 65 % con ingenieros de aprendizaje automático dedicados.
Algo menos de la mitad de los encuestados entrenan modelos de aprendizaje automático o profundo, cifra que se eleva al 60 % entre los que realizan trabajo de datos como actividad principal. Esto sugiere que el modelado predictivo se está convirtiendo en un componente central del trabajo de datos en el sector.
La mayoría de los encuestados indicó que utiliza GPU para entrenar sus modelos de aprendizaje profundo o aprendizaje automático. Las necesidades de VRAM difieren en función de la forma en que los encuestados realizan el trabajo con datos. El 40 % de los encuestados que realizan trabajo con datos como pasatiempo o con fines educativos indicó que 8 GB eran suficientes, frente a solo el 18 % de los que realizan trabajo con datos como actividad laboral principal.
La mayoría de los encuestados indicó que dedica hasta 20 horas semanales al entrenamiento de modelos, lo que puede incluir el tiempo que los modelos pasan entrenándose durante la noche. Casi un tercio dedica 5 horas semanales o menos al entrenamiento de modelos. Esto concuerda con los resultados anteriores, que muestran que el entrenamiento de modelos constituye una parte relativamente pequeña del trabajo de la ciencia de datos, y que la mayor parte del tiempo se dedica a la preparación y exploración de datos.
En consonancia con otras respuestas de nuestra encuesta que muestran que la principal actividad realizada en notebooks es la exploración y visualización de datos y que la mayoría de los encuestados trabaja con archivos locales, la mayoría de los encuestados también utiliza recursos locales para completar su trabajo de ciencia de datos. Sorprendentemente, esto no difiere mucho en función de la forma en que el encuestado realiza el trabajo de datos. Las personas que trabajan con datos como actividad principal son tan propensas a utilizar recursos locales como las que lo hacen por afición o con fines educativos.
La mayoría de los encuestados afirmó no utilizar ninguna herramienta para realizar un seguimiento del rendimiento de sus experimentos de entrenamiento de modelos. Sin embargo, el uso de este tipo de herramientas era mucho más probable en equipos de datos formados por 15 o más personas (el 58 % de los encuestados de este tipo de equipos utilizan al menos una), cuando el equipo cuenta con un ingeniero dedicado a aprendizaje automático (62 %) o cuando el encuestado participa en el modelado de aprendizaje automático y en el trabajo de operaciones de aprendizaje automático (63 %). Esto indica que este tipo de herramientas tiende a utilizarse en entornos en los que existen conocimientos especializados sobre el desarrollo de modelos de aprendizaje automático.
La mayoría de los especialistas en datos utilizaron gráficos sencillos pero significativos para explorar y presentar los datos. Estos gráficos fueron utilizados por la mayoría de los encuestados independientemente del tipo de actividades de datos en las que participaban, desde la recopilación de datos y el análisis exploratorio de datos hasta la orquestación de datos y las operaciones de aprendizaje automático.
¡Gracias por el tiempo que nos ha dado!
Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.
Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.