Big Data

Teilen:

Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst/Data Engineer/Data Scientist tätig sind. Diese Umfrage richtete sich speziell an Entwickler*innen, daher sind die Ergebnisse möglicherweise nicht repräsentativ für die allgemeine Big-Data-Community.

Welche der folgenden Tools für Stapelverarbeitung verwenden Sie?

31%

Spark

16%

Hadoop MapReduce

13%

Hive

7%

Dask

3%

Pig

1%

Tez

3%

Sonstige

56%

Keinen

Welche der folgenden Tools für Streamingverarbeitung verwenden Sie?

20%

Spark Streaming

8%

Flink

6%

Storm

5%

Dask

4%

Beam

3%

Apache NiFi

2%

Samza

3%

Sonstige

65%

Keinen

Fachleute, die keine Data Pipelines erstellen, verwenden traditionelle relationale Datenbanken für den Aufbau von Data Lakes. Spark ist nach wie vor das meistverwendete Tool für Batching und Streaming.

Welche der folgenden Orchestrierungstools verwenden Sie?

22%

Airflow

10%

Individuell oder selbstentwickelt

6%

Apache NiFi

6%

Apache Oozie

3%

Prefect

2%

Luigi

2%

Dagster

5%

Sonstige

59%

Keinen

Erwartungsgemäß ist Apache Airflow das populärste Orchestrierungstool – vor allem bei Data Engineers. Interessanterweise sind 10% der Orchestrierungstools unternehmensspezifisch oder selbst entwickelt.

Welche der folgenden Tools verwenden Sie für die Spark-Ausführung?

37%

Kubernetes

30%

YARN

27%

Amazon EMR

11%

Google DataProc

9%

Azure HDInsight

5%

Mesos

5%

Nomad

5%

DataBricks

3%

AWS Glue

2%

Sonstige

13%

Keinen

Kubernetes, YARN und Amazon EMR sind die gängigsten Cloud-Lösungen für die Ausführung von Spark.

Welche der folgenden Tools verwenden Sie zur Erstellung von Data Lakes?

24%

Herkömmliche relationale Datenbank

15%

Delta Lake

6%

MPP

4%

Iceberg

3%

Hudi

7%

Sonstige

54%

Keinen

Welche der folgenden MPP-Tools verwenden Sie?

15%

BigQuery

13%

Redshift

11%

Azure SQL Data Warehouse

9%

Azure Data Explorer

5%

ClickHouse

3%

Greenplum

3%

Spanner

4%

Sonstige

61%

Keinen

Die überwiegende Mehrheit Befragten verwendet keine MPP-Tools. BigQuery, Redshift und Azure SQL Data Warehouse sind die gängigsten Lösungen in diesem Bereich.

Arbeiten Sie mit Message-Brokern oder Message-Queues (z. B. Kafka, RabbitMQ)?

Welche der folgenden Tools verwenden Sie für Messaging und Auslieferung?

49%

RabbitMQ

42%

Kafka

20%

Amazon SQS

9%

ActiveMQ

7%

RocketMQ

5%

Azure Event Hub

4%

Amazon Kinesis

Big Data:

2022

Danke, dass Sie sich die Zeit genommen haben!

Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.