Big data

Compartir:

Las preguntas de esta sección se mostraron a desarrolladores implicados en el análisis de datos, la ingeniería de datos, el aprendizaje automático, o a aquellos cuya función laboral era la de analista de datos, ingeniero de datos o científico de datos.

Compartir:

¿Cuáles de las siguientes herramientas de procesamiento por lotes utiliza?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

Otro/a

55%

Ninguno/a

¿Cuáles de los siguientes marcos de trabajo o herramientas de procesamiento de flujos utiliza?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

Otro/a

64%

Ninguno/a

El ecosistema Spark sigue siendo la opción más popular para el procesamiento por lotes y de flujos.

¿Cuáles de las siguientes herramientas de orquestación utiliza?

21%

Airflow

9%

A medida o de creación propia

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

Otro/a

57%

Ninguno/a

Como era de esperar, Apache Airflow es la herramienta de orquestación más popular, especialmente entre los ingenieros de datos. Curiosamente, el 9 % de las herramientas de orquestación que se utilizan son personalizadas o de creación propia.

¿Cuáles de las siguientes herramientas utiliza para la ejecución de Spark?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN y Amazon EMR son las soluciones en la nube más populares para la ejecución de Spark. Kubernetes ha ido ganando popularidad año tras año, mientras que el uso de YARN ha disminuido en 8 puntos porcentuales año tras año. Las empresas tienden a preferir incluir herramientas de ingeniería de datos en las demás partes del panorama informático en lugar de utilizar sistemas independientes como YARN.

¿Cuáles de las siguientes herramientas utiliza para construir lagos de datos?

22%

Bases de datos relacionales tradicionales

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

Otro/a

53%

Ninguno/a

¿Cuáles de las siguientes herramientas de MPP utiliza?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

La mayoría de los encuestados no utiliza herramientas de MPP, pero los que sí lo hacen tienden a decantarse por BigQuery, Redshift o Azure SQL Data Warehouse.

¿Suele crear nuevos clústeres o trabaja siempre con el mismo clúster?

49%

Trabajo sin un clúster dedicado

30%

Creo nuevos clústeres para mis tareas de desarrollo

18%

Hago todo mi trabajo en un clúster que nunca se detiene

3%

Otro/a

¿Cuáles de los siguientes motores utiliza para sus tareas de ingeniería de datos?

64%

No utilizo ningún motor

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

Una mayoría significativa (64 %) declaró no utilizar ningún motor para sus tareas de ingeniería de datos. Entre los usuarios de motores, BigQuery, Databricks y AWS Athena son igualmente populares, cada uno con una cuota del 10 %. Amazon EMR, Redshift, AWS Glue y Azure Analysis Services les siguen de cerca.

¿Trabaja con agentes de mensajes o colas de mensajes (p. ej., Kafka, RabbitMQ, etc.)?

¿Cuáles de las siguientes herramientas utiliza para la mensajería y entrega relacionadas con la ingeniería de datos?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Kafka destaca como la opción más popular para la mensajería y la entrega relacionadas con la ingeniería de datos (58 %), mientras que RabbitMQ le sigue con un 46 %. Curiosamente, solo el 2 % de los encuestados declaró no utilizar ninguna herramienta de mensajería o entrega.

¿Ejecuta pruebas en su base de código de ingeniería de datos?

¿Qué marcos de pruebas utiliza?

59%

No utilizo ningún marco

28%

Great Expectations

10%

Deequ

7%

Otro/a

La mayoría de los encuestados no realiza pruebas en su base de código de ingeniería. Entre el 31 % que sí lo hace, la mayor parte no utiliza ningún marco de trabajo o emplea Great Expectations.

Big data:

2023

¡Gracias por el tiempo que nos ha dado!

Esperamos que nuestro informe le haya resultado útil. Comparta este informe con sus amigos y compañeros.

Si tiene alguna pregunta o sugerencia, no dude en ponerse en contacto con nosotros a través de surveys@jetbrains.com.