Ciencia de datos

Compartir:

Las preguntas de esta sección se mostraron a desarrolladores involucrados en inteligencia de negocio, análisis de datos, Ingeniería de datos, aprendizaje automático, o a aquellos cuyo rol de trabajo era analista de datos, ingeniero de datos, científico de datos o analista de negocio.

¿Qué tipo de actividad es para usted la ciencia de datos, la analítica de datos, la ingeniería de datos o aprendizaje automático?

Un número bastante elevado de los encuestados combina sus responsabilidades en el ámbito de la ciencia de datos con otras actividades. Estos resultados indican que se ha producido una democratización de este ámbito y que existe potencial de crecimiento del mercado.

¿En cuál de las siguientes actividades participa?

54%

Visualización de datos

50%

Recopilación de datos/extracción de datos

42%

Diseño de modelos de aprendizaje automático

38%

Análisis exploratorio de datos

32%

Procesos de datos

21%

Arquitectura de almacenamiento

19%

Orquestación de datos

15%

Operaciones de aprendizaje automático

1%

Otros

9%

Ninguno

En JetBrains creamos Datalore, una plataforma colaborativa de ciencia de datos para equipos. Al tiempo que ofrece una excelente experiencia de codificación para los profesionales de datos, Datalore también aporta automatizaciones sin código para los flujos de trabajo de exploración y visualización de datos. Esto significa que incluso los usuarios no técnicos pueden redactar informes ad hoc y visualizar datos en la misma herramienta que el equipo de datos principal.

¿Cómo aprendió ciencia de datos, aprendizaje automático o ingeniería de datos?

63%

Estudié de forma independiente

40%

Estudié programación o análisis de datos en la universidad

32%

Realicé cursos en línea

17%

Hice la transición desde un trabajo de ingeniería de software

3%

Otros

Los puestos especializados en datos, como los de científico de datos, ingeniero de datos e ingeniero de aprendizaje automático, son relativamente nuevos. Muchos de nuestros encuestados accedieron a estos puestos después de trabajar o formarse en campos adyacentes, por lo que necesitaron actualizar sus conocimientos mediante estudios independientes o cursos en línea. Si bien los títulos de posgrado en STEM han sido tradicionalmente el camino más común hacia la ciencia de datos o el aprendizaje automático, las tendencias de los últimos siete años muestran que un número cada vez mayor de personas que trabajan en estas áreas accedió con una licenciatura, aumentando del 20 % en 2015 al 31 % en 2021. A medida que aumenta el número de personas que se gradúan en nuevos programas de grado especializados en habilidades relacionadas con los datos, es posible que veamos cómo estos resultados cambian a favor de las personas que obtuvieron estas habilidades a través de la educación formal.

¿Qué IDE o editores utiliza para la ciencia de datos o el análisis de datos?

42%

Jupyter Notebooks

41%

VS Code (Visual Studio Code)

31%

PyCharm Professional

19%

Google Colab

17%

JupyterLab

14%

DataGrip

9%

Kaggle

Los Jupyter Notebooks se impusieron como el editor preferido para la ciencia de datos y el trabajo de análisis de datos, con alrededor del 40 % de los encuestados indicando que utilizaban notebooks para estas actividades. Este resultado fue incluso mayor entre los encuestados que afirmaron realizar tareas de recopilación y visualización de datos, análisis exploratorio de datos o modelado de aprendizaje automático, con un 70  % de los encuestados que afirmaron utilizar Jupyter Notebooks.

Infórmese más sobre este tema con nuestra investigación reciente. Descubrimos que de 2019 a 2020, el número de notebooks Python 3 creció un 87 %, y el número de notebooks Python 2 aumentó un 12 %.

¿Cuánto tiempo de trabajo pasa dentro de notebooks?

11%

No uso notebooks

48%

10-20 %

23%

20-40 %

18%

Más de 40 %

¿Para qué utiliza notebooks?

69%

Análisis exploratorio de datos

68%

Experimentos sobre datos/consulta de datos

64%

Visualización

43%

Prototipos de modelos

9%

Orquestación

2%

Otros

Los Jupyter Notebooks siguen siendo una de las herramientas más populares, ya que el 42 % de los encuestados los utiliza y más del 50 % de los que lo hacen citan el trabajo con datos como su actividad principal. Se utilizan principalmente para el trabajo exploratorio, como la exploración de datos y la creación de prototipos de modelos. Sin embargo, incluso entre los que trabajan principalmente como especialistas en datos, solo una minoría de los encuestados utiliza notebooks durante más del 40 % de su tiempo de trabajo.

¿Versiona sus notebooks?

¿Qué herramientas de control de versiones utiliza?

66%

Git

62%

GitHub

22%

GitLab

18%

Versionado dentro de mi editor/herramienta IDE

9%

Creo varias copias de mis notebooks

2%

Otros

El porcentaje de los que versionan sus notebooks es bastante elevado, lo cual es una buena señal, ya que indica que una gran proporción de profesionales de los datos ven los notebooks como código que requiere mantenimiento. Las herramientas más populares entre quienes versionan sus notebooks son Git y GitHub.

Versionar Jupyter Notebooks a través de la interfaz de línea de comandos (CLI) de Git puede ser difícil. Afortunadamente DataSpell goza de una amplia gama de funcionalidades para trabajar con Git, por lo que es fácil realizar tareas esenciales a través de la interfaz de usuario, tales como la creación de un repositorio, añadir notebooks y hacer push con ellos, y ver las diferencias entre las confirmaciones de los notebooks. ¡Todo sin tener que recordar un solo comando Git! Eche un vistazo a este artículo para obtener más información sobre cómo utilizar Git con Jupyter Notebooks en DataSpell.

¿Con qué tipo de fuentes de datos trabaja?

67%

Archivos locales

52%

Bases de datos SQL

24%

​​Amazon S3

19%

Macrodatos

14%

Almacenamiento de archivos de Google

8%

Almacenamiento de archivos de Azure

5%

Otros

Además de los archivos locales, las bases de datos SQL siguen siendo las fuentes de datos más utilizadas entre los especialistas en datos.

¿Qué herramientas utiliza para presentar los resultados de su investigación?

41%

PowerPoint, Presentaciones de Google o similar

40%

Presento el notebook

37%

Editor de hojas de cálculo

25%

MS Word, Documentos de Google o similar

14%

Microsoft Power BI

11%

Tableau

6%

Plotly Dash

3%

Streamlit

1%

Qlick

1%

Voila

11%

Otros

Con Datalore puede convertir Jupyter Notebooks en hermosas aplicaciones de datos en cuestión de segundos. Organice las celdas en el lienzo y publique el resultado en modo estático o interactivo. Los interesados podrán acceder al informe a través de un enlace.

Ver un informe

¿Qué tipo de métodos y algoritmos utiliza?

55%

Redes neuronales

50%

Regresión lineal o logística

37%

Árboles de decisión o bosques aleatorios

34%

Métodos de agrupación

27%

Métodos de PLN

23%

Enfoques bayesianos

21%

Pruebas estadísticas

Los algoritmos básicos de aprendizaje automático, como la regresión y los métodos basados en árboles, siguen utilizándose en gran medida. Sin embargo, la mayoría de los encuestados también utiliza redes neuronales, especialmente arquitecturas de transformadores. La mayor facilidad de uso y la creciente popularidad de las redes de transformadores también pueden explicar por qué más de una cuarta parte de los encuestados afirmó realizar trabajos de PNL. Curiosamente, solo una quinta parte de los encuestados declaró utilizar pruebas estadísticas como parte de su trabajo, lo que sugiere que el aprendizaje profundo y el aprendizaje automático ha superado a la estadística clásica como habilidad básica de datos.

¿Qué marcos de trabajo de aprendizaje automático utiliza?

55%

TensorFlow

47%

Scikit-learn

45%

PyTorch

31%

Keras

14%

XGBoost

7%

LightGBM

5%

fast.ai

TensorFlow fue el marco de aprendizaje profundo más popular entre todos los encuestados, aunque este y PyTorch fueron utilizados por igual por los encuestados que realizan trabajo con datos como actividad principal. Scikit-learn fue la biblioteca de aprendizaje automático más popular, aunque los paquetes y marcos especializados para el modelado basado en árboles, como XGBoost y LightGBM, fueron utilizados por una notable minoría de participantes.

¿Qué soluciones empresariales de aprendizaje automático utiliza?

13%

Amazon Sagemaker

9%

Azure Machine Learning Studio

6%

Vertex AI

4%

Azure DataBricks

4%

IBM Watson Studio

2%

Gradient

2%

H2O

Los servicios de Amazon son las soluciones empresariales en la nube más populares.

Incluyéndose a sí mismo, ¿cuántos miembros conforman su equipo de datos?

16%

1-2

33%

3 - 5

24%

6-10

9%

11-15

18%

Más de 15

La mayoría de los encuestados (el 70 %) trabaja en grupos pequeños, con no más de 10 personas en un equipo. Uno de cada cinco trabaja en un equipo con más de 15 especialistas en datos.

¿Cuenta su equipo o departamento de datos con un puesto específico de ingeniero de datos?

Casi el 50 % de los equipos o departamentos cuentan con un puesto específico de ingeniero de datos.

¿Cuenta su equipo o departamento de datos con un puesto específico de ingeniero de aprendizaje automático?

Algo más del 50 % de los encuestados indicaron que sus equipos cuentan con ingenieros de datos o ingenieros de aprendizaje automático dedicados. Tanto el de ingeniero de datos como el de ingeniero de aprendizaje automático son títulos amplios que pueden variar mucho en función de la empresa, por lo que es posible que las personas que desempeñan cualquiera de estas funciones sean responsables de tareas similares relacionadas con el aprendizaje automático, como la implementación de modelos y la gestión de procesos de datos. Como era de esperar, cuanto más grande es un equipo, más probable es que haya personas trabajando en una de estas funciones. Más del 80 % de los encuestados en equipos de datos con 1-2 miembros no contaban ni con un ingeniero de datos dedicado ni con un ingeniero de aprendizaje automático, mientras que el 79 % de los encuestados en equipos de datos con más de 15 personas sí contaban con ingenieros de datos dedicados, y el 65 % con ingenieros de aprendizaje automático dedicados.

¿Entrena modelos de aprendizaje automático o aprendizaje profundo?

Algo menos de la mitad de los encuestados entrenan modelos de aprendizaje automático o profundo, cifra que se eleva al 60 % entre los que realizan trabajo de datos como actividad principal. Esto sugiere que el modelado predictivo se está convirtiendo en un componente central del trabajo de datos en el sector.

¿Utiliza GPU para entrenar sus modelos?

¿Cuánta VRAM necesita normalmente para sus tareas de aprendizaje automático?

28%

8 GB

33%

16 GB

23%

32 GB

10%

64 GB

5%

128 GB

La mayoría de los encuestados indicó que utiliza GPU para entrenar sus modelos de aprendizaje profundo o aprendizaje automático. Las necesidades de VRAM difieren en función de la forma en que los encuestados realizan el trabajo con datos. El 40  % de los encuestados que realizan trabajo con datos como pasatiempo o con fines educativos indicó que 8 GB eran suficientes, frente a solo el 18  % de los que realizan trabajo con datos como actividad laboral principal.

¿Cuánto tiempo dedica mensualmente al entrenamiento de modelos?

30%

0-5 horas

33%

5-20 horas

21%

20-50 horas

8%

50-100 horas

8%

Más de 100 horas

La mayoría de los encuestados indicó que dedica hasta 20 horas semanales al entrenamiento de modelos, lo que puede incluir el tiempo que los modelos pasan entrenándose durante la noche. Casi un tercio dedica 5 horas semanales o menos al entrenamiento de modelos. Esto concuerda con los resultados anteriores, que muestran que el entrenamiento de modelos constituye una parte relativamente pequeña del trabajo de la ciencia de datos, y que la mayor parte del tiempo se dedica a la preparación y exploración de datos.

¿Qué tipo de recursos informáticos utiliza para tareas de ciencia de datos?

61%

Recursos locales

29%

Servidores locales de la empresa

22%

Amazon Web Services

13%

Google Cloud Platform

9%

Microsoft Azure

3%

Otros

14%

Ninguno

En consonancia con otras respuestas de nuestra encuesta que muestran que la principal actividad realizada en notebooks es la exploración y visualización de datos y que la mayoría de los encuestados trabaja con archivos locales, la mayoría de los encuestados también utiliza recursos locales para completar su trabajo de ciencia de datos. Sorprendentemente, esto no difiere mucho en función de la forma en que el encuestado realiza el trabajo de datos. Las personas que trabajan con datos como actividad principal son tan propensas a utilizar recursos locales como las que lo hacen por afición o con fines educativos.

¿Qué herramientas específicas utiliza para el seguimiento de los experimentos de entrenamiento de modelos?

23%

TensorBoard

8%

MLflow

4%

WandB

2%

Otros

69%

Ninguno

La mayoría de los encuestados afirmó no utilizar ninguna herramienta para realizar un seguimiento del rendimiento de sus experimentos de entrenamiento de modelos. Sin embargo, el uso de este tipo de herramientas era mucho más probable en equipos de datos formados por 15 o más personas (el 58 % de los encuestados de este tipo de equipos utilizan al menos una), cuando el equipo cuenta con un ingeniero dedicado a aprendizaje automático (62 %) o cuando el encuestado participa en el modelado de aprendizaje automático y en el trabajo de operaciones de aprendizaje automático (63 %). Esto indica que este tipo de herramientas tiende a utilizarse en entornos en los que existen conocimientos especializados sobre el desarrollo de modelos de aprendizaje automático.

¿Qué gráficos utiliza principalmente para visualizar datos?

60%

Diagrama de líneas

56%

Histograma

55%

Diagrama de dispersión

50%

Diagrama de barras

29%

Diagrama de barras apiladas

27%

Diagrama de barras agrupadas

12%

Diagrama de violín

4%

Otros

13%

Ninguno

La mayoría de los especialistas en datos utilizaron gráficos sencillos pero significativos para explorar y presentar los datos. Estos gráficos fueron utilizados por la mayoría de los encuestados independientemente del tipo de actividades de datos en las que participaban, desde la recopilación de datos y el análisis exploratorio de datos hasta la orquestación de datos y las operaciones de aprendizaje automático.

Ciencia de datos:

2022

¡Gracias por el tiempo que nos ha dado!

Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.

Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.