Big data

Compartir:

Las preguntas de esta sección se mostraron a desarrolladores implicados en el análisis de datos, la ingeniería de datos, el aprendizaje automático, o a aquellos cuya función laboral era la de analista de datos, ingeniero de datos o científico de datos.

Compartir:

¿Cuáles de las siguientes herramientas de procesamiento por lotes utiliza?

¿Cuáles de los siguientes marcos de trabajo o herramientas de procesamiento de flujos utiliza?

El ecosistema Spark sigue siendo la opción más popular para el procesamiento por lotes y de flujos.

¿Cuáles de las siguientes herramientas de orquestación utiliza?

Como era de esperar, Apache Airflow es la herramienta de orquestación más popular, especialmente entre los ingenieros de datos. Curiosamente, el 9 % de las herramientas de orquestación que se utilizan son personalizadas o de creación propia.

¿Cuáles de las siguientes herramientas utiliza para la ejecución de Spark?

Kubernetes, YARN y Amazon EMR son las soluciones en la nube más populares para la ejecución de Spark. Kubernetes ha ido ganando popularidad año tras año, mientras que el uso de YARN ha disminuido en 8 puntos porcentuales año tras año. Las empresas tienden a preferir incluir herramientas de ingeniería de datos en las demás partes del panorama informático en lugar de utilizar sistemas independientes como YARN.

¿Cuáles de las siguientes herramientas utiliza para construir lagos de datos?

¿Cuáles de las siguientes herramientas de MPP utiliza?

La mayoría de los encuestados no utiliza herramientas de MPP, pero los que sí lo hacen tienden a decantarse por BigQuery, Redshift o Azure SQL Data Warehouse.

¿Suele crear nuevos clústeres o trabaja siempre con el mismo clúster?

¿Cuáles de los siguientes motores utiliza para sus tareas de ingeniería de datos?

Una mayoría significativa (64 %) declaró no utilizar ningún motor para sus tareas de ingeniería de datos. Entre los usuarios de motores, BigQuery, Databricks y AWS Athena son igualmente populares, cada uno con una cuota del 10 %. Amazon EMR, Redshift, AWS Glue y Azure Analysis Services les siguen de cerca.

¿Trabaja con agentes de mensajes o colas de mensajes (p. ej., Kafka, RabbitMQ, etc.)?

¿Cuáles de las siguientes herramientas utiliza para la mensajería y entrega relacionadas con la ingeniería de datos?

Kafka destaca como la opción más popular para la mensajería y la entrega relacionadas con la ingeniería de datos (58 %), mientras que RabbitMQ le sigue con un 46 %. Curiosamente, solo el 2 % de los encuestados declaró no utilizar ninguna herramienta de mensajería o entrega.

¿Ejecuta pruebas en su base de código de ingeniería de datos?

¿Qué marcos de pruebas utiliza?

La mayoría de los encuestados no realiza pruebas en su base de código de ingeniería. Entre el 31 % que sí lo hace, la mayor parte no utiliza ningún marco de trabajo o emplea Great Expectations.

Big data:

2023

¡Gracias por el tiempo que nos ha dado!

Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.

Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.