Big Data

Partager :

Les questions de cette section ont été posées aux développeurs impliqués dans l'analyse de données, l'ingénierie de données, le machine learning, ou ayant comme rôle professionnel analyste de données, ingénieur de données ou data scientist. Cette enquête s'adressait spécifiquement aux développeurs. Les résultats peuvent donc ne pas être représentatifs des professionnels du secteur du big data dans leur ensemble.

Lequel de ces outils de traitement par lots utilisez-vous ?

31%

Spark

16%

Hadoop MapReduce

13%

Hive

7%

Dask

3%

Pig

1%

Tez

3%

Autres

56%

Aucun

Lequel de ces outils de traitement de streaming utilisez-vous ?

20%

Spark Streaming

8%

Flink

6%

Storm

5%

Dask

4%

Beam

3%

Apache NiFi

2%

Samza

3%

Autres

65%

Aucun

Les professionnels qui ne sont pas impliqués dans la création de pipelines de données utilisent des bases de données relationnelles traditionnelles pour créer des lacs de données. Spark reste l'outil le plus populaire pour le traitement par lots et le streaming.

Lequel de ces outils d'orchestration utilisez-vous ?

22%

Airflow

10%

Outil personnalisé ou conçu par votre entreprise/organisation

6%

Apache NiFi

6%

Apache Oozie

3%

Prefect

2%

Luigi

2%

Dagster

5%

Autres

59%

Aucun

Comme on pouvait s'y attendre, Apache Airflow est l'outil d'orchestration le plus populaire, surtout parmi les ingénieurs de données. Il est intéressant de noter que 10 % des outils d'orchestration sont personnalisés ou autoconstruits.

Lequel de ces outils utilisez-vous pour l'exécution de Spark ?

37%

Kubernetes

30%

YARN

27%

Amazon EMR

11%

Google DataProc

9%

Azure HDInsight

5%

Mesos

5%

Nomad

5%

DataBricks

3%

AWS Glue

2%

Autres

13%

Aucun

Kubernetes, YARN et Amazon EMR sont les solutions cloud les plus populaires pour l'exécution de Spark.

Lequel de ces outils utilisez-vous pour créer des lacs de données ?

24%

Base de données relationnelle traditionnelle

15%

Delta Lake

6%

MPP

4%

Iceberg

3%

Hudi

7%

Autres

54%

Aucun

Lesquels de ces outils de MPP (traitement massivement parallèle) utilisez-vous ?

15%

BigQuery

13%

Redshift

11%

Azure SQL Data Warehouse

9%

Azure Data Explorer

5%

ClickHouse

3%

Greenplum

3%

Spanner

4%

Autres

61%

Aucun

La grande majorité des personnes interrogées n'utilisent pas d'outils de traitement massivement parallèle (MPP). BigQuery, Redshift et Azure SQL Data Warehouse sont les outils les plus populaires.

Travaillez-vous avec des agents de messages ou des files d'attente de messages (par exemple Kafka ou RabbitMQ) ?

Lesquels de ces outils utilisez-vous pour la messagerie et la livraison ?

49%

RabbitMQ

42%

Kafka

20%

Amazon SQS

9%

ActiveMQ

7%

RocketMQ

5%

Azure Event Hub

4%

Amazon Kinesis

Big Data:

2022

Merci du temps que vous nous avez accordé !

Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.

Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.