Big Data

Partager :

Les questions de cette section ont été posées aux développeurs ayant déclaré être impliqués dans l'analyse de données, l'ingénierie des données, le machine learning ou aux personnes occupant un poste d'analyste de données, d'ingénieur de données ou de data scientist.

Partager :

Parmi les outils de traitement par lots suivants, lesquels utilisez-vous ?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

Autre

55%

Aucun

Parmi les frameworks et outils de traitement de streaming suivants, lesquels utilisez-vous ?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

Autre

64%

Aucun

L'écosystème Spark reste le choix le plus populaire pour le traitement des données par lots et en streaming.

Parmi les outils d'orchestration suivants, lesquels utilisez-vous ?

21%

Airflow

9%

Outil personnalisé ou conçu par votre entreprise/organisation

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

Autre

57%

Aucun

Comme on pouvait s'y attendre, Apache Airflow est l'outil d'orchestration le plus populaire, en particulier parmi les ingénieurs de données. Il est intéressant de noter que 9 % des outils d'orchestration utilisés sont personnalisés ou « faits maison ».

Parmi les outils suivants, lesquels utilisez-vous pour l'exécution de Spark ?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN et Amazon EMR sont les solutions cloud les plus populaires pour l'exécution de Spark. Kubernetes gagne en popularité d'année en année, tandis que l'utilisation de YARN a diminué de 8 points de pourcentage d'une année sur l'autre. Les entreprises préfèrent généralement inclure des outils d'ingénierie de données dans d'autres parties du paysage informatique plutôt que d'utiliser des systèmes distincts comme YARN.

Parmi les outils suivants, lesquels utilisez-vous pour créer des lacs de données ?

22%

Bases de données relationnelles traditionnelles

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

Autre

53%

Aucun

Parmi les outils de MPP suivants, lesquels utilisez-vous ?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

La majorité des répondants déclare ne pas utiliser d'outils de traitement massivement parallèle (MPP), mais ceux qui le font ont tendance à utiliser BigQuery, Redshift ou Azure SQL Data Warehouse.

Généralement, créez-vous de nouveaux clusters ou travaillez-vous toujours avec le même cluster ?

49%

Je travaille sans cluster dédié

30%

Je crée de nouveaux clusters pour mes tâches de développement

18%

Je fais tout mon travail sur un seul cluster qui ne s'arrête jamais

3%

Autre

Parmi les moteurs suivants, lesquels utilisez-vous pour vos tâches d'ingénierie des données ?

64%

Je n'utilise aucun moteur

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

Une large majorité des répondants (64 %) a déclaré n'utiliser aucun moteur pour leurs tâches d'ingénierie de données. Les trois moteurs les plus populaires sont BigQuery, Databricks et AWS Athena, chacun 10 % chacun. Amazon EMR, Redshift, AWS Glue et Azure Analysis Services suivent de près.

Travaillez-vous avec des gestionnaires de messages ou des files d'attente de messages (par exemple Kafka ou RabbitMQ) ?

Parmi les outils suivants, lesquels utilisez-vous pour la messagerie et la diffusion de données ?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Kafka se démarque en tant que solution de messagerie et diffusion de données la plus populaire (58 %), suivie par RabbitMQ avec 46 %. Il est intéressant de noter que seulement 2 % des personnes interrogées ont déclaré n'utiliser aucun outil de ce type.

Exécutez-vous des tests dans votre base de code d'ingénierie des données ?

Quels frameworks de tests utilisez-vous ?

59%

Je n'utilise aucun framework

28%

Great Expectations

10%

Deequ

7%

Autre

La plupart des personnes interrogées n'exécutent pas de tests dans leur base de code d'ingénierie. Parmi les 31 % qui le font, la majorité n'utilise aucun framework ou utilise Great Expectations.

Big Data:

2023

Merci du temps que vous nous avez accordé !

Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.

Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.