Ciencia de datos

Compartir:

Las preguntas de esta sección se mostraron a desarrolladores involucrados en inteligencia de negocio, análisis de datos, ingeniería de datos, aprendizaje automático, o a aquellos cuyo rol de trabajo era analista de datos, ingeniero de datos, científico de datos o analista de negocio.

¿Qué tipo de actividad es para usted la ciencia de datos, el análisis de datos o el aprendizaje automático?

Analítica de datosCiencia de datosAprendizaje automático
19 %17 %16 %Es mi principal actividad profesional
36 %31 %23 %Es una actividad profesional secundaria
14 %16 %18 %Me sirve para fines educativos
18 %20 %24 %Es solo un hobby
12 %16 %19 %No me dedico a la ciencia de datos
12 %36 %

Un número considerable de encuestados parece estar compaginando las responsabilidades de la ciencia de datos con otras actividades. Estas conclusiones sugieren que se está produciendo una democratización del campo, lo que implica oportunidades potenciales para el crecimiento del mercado de la ciencia de datos.

¿Cuenta su equipo o departamento de datos con un puesto específico de ingeniero de aprendizaje automático?

PyCharm

Un IDE de Python todo en uno para crear procesos de datos, analizar datos, generar prototipos y desplegar modelos de ML con una excelente compatibilidad con Python, bibliotecas científicas, cuadernos Jupyter interactivos, Anaconda, bases de datos SQL y NoSQL, y mucho más.

¿Qué tipos de datos analiza?

33%

Datos transaccionales

30%

Datos de series temporales

27%

Archivos de fotos o imágenes

26%

Datos generados por máquina

23%

Páginas web

20%

Datos de flujos de clics en la web

18%

Interacciones con los clientes

¿En cuáles de las siguientes actividades participa?

46%

Visualización de datos

43%

Recopilación de datos/extracción de datos

33%

Análisis exploratorio de datos

31%

Modelado de aprendizaje automático

31%

Procesos de datos

23%

Operaciones de aprendizaje automático

21%

Arquitectura de almacenamiento

¿Qué tipo de gráfico utiliza más para las visualizaciones de datos?

64%

Gráfico lineal

58%

Gráfico de barras

57%

Diagrama de dispersión

54%

Histograma

33%

Gráfico de barras apiladas

31%

Gráfico de barras agrupadas

13%

Diagrama de violín

4%

Otro/a

10%

Ninguno/a

La mayoría de los profesionales de la ciencia de datos encuentra valor en el empleo de gráficos probados para la exploración y presentación de datos. Estos tipos de gráficos se utilizan en gran medida en diversas tareas relacionadas con los datos, como la recopilación de datos, el análisis exploratorio de datos, la orquestación de datos y las operaciones de aprendizaje automático.

Datalore

Datalore de JetBrains es una plataforma colaborativa de ciencia de datos y analítica para equipos, accesible directamente desde el navegador. Los notebooks Datalore son compatibles con Jupyter y ofrecen asistencia a la codificación inteligente para notebooks Python, SQL, R y Scala, así como visualizaciones sin código y limpieza y transformación de datos. El generador de informes de Datalore permite a los equipos convertir un notebook lleno de código y experimentos en una historia clara y basada en datos. Los equipos pueden compartir notebooks, editarlos juntos en tiempo real y organizar sus proyectos en espacios de trabajo.

¿Cuenta su equipo o departamento de datos con un puesto específico de ingeniero de datos?

Cerca de la mitad de los equipos y departamentos cuentan con un ingeniero de datos o de aprendizaje automático dedicado.

¿Cómo aprendió ciencia de datos, aprendizaje automático o ingeniería de datos?

56%

Estudié de forma independiente

41%

Estudié programación o análisis de datos en una universidad

36%

Realicé cursos en línea

19%

Llegué desde un trabajo de ingeniería de software

4%

Otro/a

Los roles especializados como científico de datos, ingeniero de datos e ingeniero de aprendizaje automático son incorporaciones relativamente recientes al mercado laboral. Muchos de los encuestados pasan a desempeñar estas funciones desde campos relacionados, lo que hace necesaria la adquisición de nuevas competencias a través del autoaprendizaje o de cursos en línea.

Incluyéndose a usted, ¿cuántos miembros conforman su equipo de datos?

20%

1–2

15%

3

11%

4

9%

5

16%

6-7

12%

8-10

7%

11–15

11%

Más de 15

Más del 50 % de los que trabajan con datos lo hacen en equipos de cinco o más personas.

¿Qué IDE o editores utiliza para la ciencia de datos o el análisis de datos?

40%

Visual Studio Code

35%

Jupyter Notebooks

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

¿Cuánto tiempo de trabajo pasa dentro de notebooks?

48%

10–20 %

23%

20–40 %

20%

Más de 40 %

10%

No uso notebooks

¿Para qué utiliza notebooks?

71%

Análisis exploratorio de datos

66%

Experimentos sobre datos/consulta de datos

65%

Visualización

43%

Prototipos de modelos

9%

Orquestación

1%

Otro/a

¿Versiona sus notebooks?

¿Qué herramientas de control de versiones utiliza?

57%

Git

57%

GitHub

23%

GitLab

20%

Control de versiones dentro de mi editor/IDE

12%

Creo varias copias de mis notebooks

2%

Otro/a

Aunque la mayoría de los profesionales de la ciencia de datos no versiona sus notebooks, una proporción considerable (41 %) opta por hacerlo, y la mayoría de ellos elige Git o GitHub para el versionado.

¿Qué herramientas utiliza para presentar los resultados de su investigación?

39%

PowerPoint, Presentaciones de Google o similar

37%

Presento el notebook

36%

Editor de hojas de cálculo

25%

MS Word, Documentos de Google o similar

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

Otro/a

Varias implementaciones de los Jupyter Notebooks son muy populares en la ciencia de datos, con casos de uso comunes que incluyen el análisis exploratorio de datos, la experimentación con datos y la consulta de datos, así como la creación de prototipos de modelos. Aproximadamente el 40 % de los profesionales de la ciencia de datos utiliza Jupyter Notebooks para presentar los resultados de su trabajo, pero, curiosamente, muchos (casi el 50 %) dedican solo entre el 10 % y el 20 % de su tiempo a utilizar Jupyter Notebooks.

¿Qué tipo de recursos informáticos utiliza para tareas de ciencia de datos?

57%

Recursos locales

28%

Servidores locales de la empresa

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

Otro/a

15%

Ninguno/a

La mayoría de los encuestados confía en los recursos locales para su trabajo de ciencia de datos.

¿Con qué tipo de fuentes de datos trabaja?

67%

64%

Archivos locales

52%

62%

Bases de datos SQL

24%

23%

​​Amazon S3

19%

15%

Macrodatos

14%

15%

Almacenamiento de archivos de Google

8%

9%

Almacenamiento de archivos de Azure

5%

4%

Otro/a

Aunque la mayoría utiliza archivos locales, la proporción de los que utilizan bases de datos SQL creció 10 puntos porcentuales durante el año pasado, lo que pone de relieve la importancia de SQL para la ciencia de datos.

¿Qué tipo de datos utiliza más?

¿Utiliza datos sintéticos en su trabajo?

La mayoría de los científicos de datos encuestados procesa datos recopilados a medida, siendo los tipos de datos más frecuentes los datos transaccionales, los datos de series temporales, las imágenes y los datos generados por máquinas. Curiosamente, el 30 % trabaja con datos sintéticos, es decir, datos fabricados artificialmente en lugar de generados por acontecimientos del mundo real.

¿Entrena modelos de aprendizaje automático o aprendizaje profundo?

Aproximadamente el 40 % de todos los encuestados entrena modelos de aprendizaje automático o profundo. Sin embargo, esta cifra salta a más del 60 % entre los que consideran el trabajo con datos como su actividad principal. Esta tendencia del sector implica que el modelado predictivo se está convirtiendo en el aspecto central del trabajo con datos.

¿Con qué frecuencia vuelve a entrenar o actualiza sus modelos de aprendizaje automático?

27%

Más de una vez al mes

23%

Mensualmente

18%

Trimestralmente

7%

Dos veces al año

7%

Anualmente

18%

Nunca

¿Cuánto tiempo dedica cada mes al entrenamiento de modelos?

27%

0-5 horas

36%

5-20 horas

23%

20-50 horas

8%

50-100 horas

6%

Más de 100 horas

Aunque la mitad de los profesionales de la ciencia de datos vuelve a entrenar o actualiza sus modelos de aprendizaje automático al menos una vez al mes, la mayoría dedica menos de 20 horas mensuales a esta tarea.

¿Utiliza GPU para entrenar sus modelos?

La mayoría (el 81 %) de los profesionales de la ciencia de datos utiliza GPU para el entrenamiento de modelos. El uso eficiente de los procesadores gráficos puede acelerar el entrenamiento y mejorar así el rendimiento de los modelos, lo que los convierte en un recurso cada vez más atractivo para investigadores y especialistas en datos. Esto también pone de relieve la importancia y relevancia de las innovaciones tecnológicas en el mundo del aprendizaje automático.

¿Cuánta VRAM necesita normalmente para sus tareas de aprendizaje automático?

28%

22%

8 GB

33%

29%

16 GB

23%

22%

32 GB

10%

14%

64 GB

5%

6%

128 GB

8%

Más de 128 GB

Una mayor potencia de computación es una tendencia clara para las tareas de aprendizaje automático. Casi el 80 % de los profesionales de la ciencia de datos utiliza ahora 16 GB o más de VRAM, mientras que la proporción de los que utilizan 8 GB se redujo en seis puntos porcentuales a lo largo del último año.

¿Qué tipo de métodos y algoritmos utiliza?

47%

Regresión lineal o logística

47%

Redes neuronales

38%

Árboles de decisión o bosques aleatorios

36%

Métodos de agrupación

30%

Métodos de PLN

25%

Enfoques bayesianos

24%

Redes de transformadores

Los algoritmos básicos del aprendizaje automático, como la regresión y los métodos basados en árboles, siguen prevaleciendo, aunque un número significativo de profesionales de la ciencia de datos también adoptan las redes neuronales. La creciente popularidad y facilidad de uso de las redes neuronales podría explicar por qué el 30 % de los encuestados realiza tareas de procesamiento del lenguaje natural (PLN). Curiosamente, solo el 24 % de los participantes afirmó utilizar pruebas estadísticas en su trabajo, lo que indica que el aprendizaje automático y el aprendizaje profundo han superado a la estadística clásica como competencias fundamentales en materia de datos.

¿Qué soluciones empresariales de aprendizaje automático utiliza?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Los servicios de Amazon destacan como las soluciones empresariales en la nube más populares. Notablemente, se ha producido un aumento significativo (de más de 10 puntos porcentuales) en la adopción de soluciones empresariales de aprendizaje automático en comparación con el año anterior.

¿Qué marcos de trabajo de aprendizaje automático utiliza?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow se sitúa ligeramente por delante de scikit-learn y PyTorch en popularidad, mientras que Keras y XGBoost también muestran sólidas tasas de adopción. Curiosamente, una proporción significativa de los encuestados (19 %) declaró no utilizar ningún marco de trabajo específico.

¿Qué herramientas utiliza para el seguimiento de los experimentos de entrenamiento de modelos?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

Otro/a

66%

Ninguno/a

TensorBoard es la herramienta más utilizada, con una cuota del 23 %, seguida de MLFlow con un 10 % y WandB con un 7 %. Sin embargo, dos tercios de los profesionales de la ciencia de datos no está utilizando ninguna herramienta específica para el seguimiento de sus experimentos de entrenamiento de modelos.

¿Cuál de las siguientes opciones describe mejor el uso del aprendizaje automático en su organización?

47%

Utilizar funcionalidades basadas en la IA en productos o servicios

30%

Ayudar a la investigación y el desarrollo de nuevos productos

28%

Impulsar aplicaciones de producción

28%

Todavía investigando/creando modelos piloto de aplicaciones potenciales

25%

Mejorar la comprensión de los datos corporativos

22%

Reducir los costes empresariales

21%

Apoyar otras funciones empresariales

El aprendizaje automático y la IA se han convertido en componentes cruciales de la vida empresarial diaria, por lo que no debería sorprendernos que casi la mitad de nuestros encuestados utilicen diversas funciones basadas en la IA integradas en el software que utilizan.

¿Qué soluciones empresariales en la nube utiliza?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

¿Cuáles de las siguientes actividades basadas en datos son las más difíciles de realizar para usted o su organización?

47%

Calidad de los datos

29%

Seguridad y gobernanza de los datos

28%

Preparación/transformación de los datos

28%

Análisis de datos

23%

Creación/recopilación de los datos

22%

Integración de los datos

20%

Migración de los datos

Como promedio, ¿qué porcentaje del tiempo de su equipo se dedica a gestionar, limpiar o etiquetar datos?

¿Qué herramientas utiliza para la limpieza de datos?

47%

IDEs

27%

Plataformas en la nube

27%

Hojas de cálculo

3%

Herramientas especializadas como OpenRefine

5%

Otro/a

29%

No realizo limpieza de datos

La calidad de los datos es un problema habitual de los profesionales y las organizaciones que trabajan con datos, ya que casi el 50 % dedica el 30 % de su tiempo o más a la preparación de los datos. Un estudio de Anaconda también confirma que la limpieza de datos se perfila como el aspecto que más tiempo consume en el flujo de trabajo de los profesionales de los datos. Casi la mitad de nuestros encuestados opta por entornos de desarrollo integrados (IDE) para gestionar este tipo de tareas.

Ciencia de datos:

2023

¡Gracias por el tiempo que nos ha dado!

Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.

Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.