Ciencia de datos
Compartir:
Las preguntas de esta sección se mostraron a desarrolladores involucrados en inteligencia de negocio, análisis de datos, ingeniería de datos, aprendizaje automático, o a aquellos cuyo rol de trabajo era analista de datos, ingeniero de datos, científico de datos o analista de negocio.
Un número considerable de encuestados parece estar compaginando las responsabilidades de la ciencia de datos con otras actividades. Estas conclusiones sugieren que se está produciendo una democratización del campo, lo que implica oportunidades potenciales para el crecimiento del mercado de la ciencia de datos.
PyCharm
Un IDE de Python todo en uno para crear procesos de datos, analizar datos, generar prototipos y desplegar modelos de ML con una excelente compatibilidad con Python, bibliotecas científicas, cuadernos Jupyter interactivos, Anaconda, bases de datos SQL y NoSQL, y mucho más.
La mayoría de los profesionales de la ciencia de datos encuentra valor en el empleo de gráficos probados para la exploración y presentación de datos. Estos tipos de gráficos se utilizan en gran medida en diversas tareas relacionadas con los datos, como la recopilación de datos, el análisis exploratorio de datos, la orquestación de datos y las operaciones de aprendizaje automático.
Datalore
Datalore de JetBrains es una plataforma colaborativa de ciencia de datos y analítica para equipos, accesible directamente desde el navegador. Los notebooks Datalore son compatibles con Jupyter y ofrecen asistencia a la codificación inteligente para notebooks Python, SQL, R y Scala, así como visualizaciones sin código y limpieza y transformación de datos. El generador de informes de Datalore permite a los equipos convertir un notebook lleno de código y experimentos en una historia clara y basada en datos. Los equipos pueden compartir notebooks, editarlos juntos en tiempo real y organizar sus proyectos en espacios de trabajo.
Cerca de la mitad de los equipos y departamentos cuentan con un ingeniero de datos o de aprendizaje automático dedicado.
Los roles especializados como científico de datos, ingeniero de datos e ingeniero de aprendizaje automático son incorporaciones relativamente recientes al mercado laboral. Muchos de los encuestados pasan a desempeñar estas funciones desde campos relacionados, lo que hace necesaria la adquisición de nuevas competencias a través del autoaprendizaje o de cursos en línea.
Aunque la mayoría de los profesionales de la ciencia de datos no versiona sus notebooks, una proporción considerable (41 %) opta por hacerlo, y la mayoría de ellos elige Git o GitHub para el versionado.
Varias implementaciones de los Jupyter Notebooks son muy populares en la ciencia de datos, con casos de uso comunes que incluyen el análisis exploratorio de datos, la experimentación con datos y la consulta de datos, así como la creación de prototipos de modelos. Aproximadamente el 40 % de los profesionales de la ciencia de datos utiliza Jupyter Notebooks para presentar los resultados de su trabajo, pero, curiosamente, muchos (casi el 50 %) dedican solo entre el 10 % y el 20 % de su tiempo a utilizar Jupyter Notebooks.
Aunque la mayoría utiliza archivos locales, la proporción de los que utilizan bases de datos SQL creció 10 puntos porcentuales durante el año pasado, lo que pone de relieve la importancia de SQL para la ciencia de datos.
La mayoría de los científicos de datos encuestados procesa datos recopilados a medida, siendo los tipos de datos más frecuentes los datos transaccionales, los datos de series temporales, las imágenes y los datos generados por máquinas. Curiosamente, el 30 % trabaja con datos sintéticos, es decir, datos fabricados artificialmente en lugar de generados por acontecimientos del mundo real.
Aproximadamente el 40 % de todos los encuestados entrena modelos de aprendizaje automático o profundo. Sin embargo, esta cifra salta a más del 60 % entre los que consideran el trabajo con datos como su actividad principal. Esta tendencia del sector implica que el modelado predictivo se está convirtiendo en el aspecto central del trabajo con datos.
Aunque la mitad de los profesionales de la ciencia de datos vuelve a entrenar o actualiza sus modelos de aprendizaje automático al menos una vez al mes, la mayoría dedica menos de 20 horas mensuales a esta tarea.
La mayoría (el 81 %) de los profesionales de la ciencia de datos utiliza GPU para el entrenamiento de modelos. El uso eficiente de los procesadores gráficos puede acelerar el entrenamiento y mejorar así el rendimiento de los modelos, lo que los convierte en un recurso cada vez más atractivo para investigadores y especialistas en datos. Esto también pone de relieve la importancia y relevancia de las innovaciones tecnológicas en el mundo del aprendizaje automático.
Una mayor potencia de computación es una tendencia clara para las tareas de aprendizaje automático. Casi el 80 % de los profesionales de la ciencia de datos utiliza ahora 16 GB o más de VRAM, mientras que la proporción de los que utilizan 8 GB se redujo en seis puntos porcentuales a lo largo del último año.
Los algoritmos básicos del aprendizaje automático, como la regresión y los métodos basados en árboles, siguen prevaleciendo, aunque un número significativo de profesionales de la ciencia de datos también adoptan las redes neuronales. La creciente popularidad y facilidad de uso de las redes neuronales podría explicar por qué el 30 % de los encuestados realiza tareas de procesamiento del lenguaje natural (PLN). Curiosamente, solo el 24 % de los participantes afirmó utilizar pruebas estadísticas en su trabajo, lo que indica que el aprendizaje automático y el aprendizaje profundo han superado a la estadística clásica como competencias fundamentales en materia de datos.
Los servicios de Amazon destacan como las soluciones empresariales en la nube más populares. Notablemente, se ha producido un aumento significativo (de más de 10 puntos porcentuales) en la adopción de soluciones empresariales de aprendizaje automático en comparación con el año anterior.
TensorFlow se sitúa ligeramente por delante de scikit-learn y PyTorch en popularidad, mientras que Keras y XGBoost también muestran sólidas tasas de adopción. Curiosamente, una proporción significativa de los encuestados (19 %) declaró no utilizar ningún marco de trabajo específico.
TensorBoard es la herramienta más utilizada, con una cuota del 23 %, seguida de MLFlow con un 10 % y WandB con un 7 %. Sin embargo, dos tercios de los profesionales de la ciencia de datos no está utilizando ninguna herramienta específica para el seguimiento de sus experimentos de entrenamiento de modelos.
El aprendizaje automático y la IA se han convertido en componentes cruciales de la vida empresarial diaria, por lo que no debería sorprendernos que casi la mitad de nuestros encuestados utilicen diversas funciones basadas en la IA integradas en el software que utilizan.
La calidad de los datos es un problema habitual de los profesionales y las organizaciones que trabajan con datos, ya que casi el 50 % dedica el 30 % de su tiempo o más a la preparación de los datos. Un estudio de Anaconda también confirma que la limpieza de datos se perfila como el aspecto que más tiempo consume en el flujo de trabajo de los profesionales de los datos. Casi la mitad de nuestros encuestados opta por entornos de desarrollo integrados (IDE) para gestionar este tipo de tareas.
¡Gracias por el tiempo que nos ha dado!
Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.
Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.