Big Data

Teilen:

Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst/Data Engineer/Data Scientist tätig sind.

Teilen:

Welche der folgenden Tools für Stapelverarbeitung verwenden Sie?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

Sonstiges

55%

Keine

Welche der folgenden Frameworks/Bibliotheken für Streamingverarbeitung verwenden Sie?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

Sonstiges

64%

Keine

Das Spark-Ökosystem ist nach wie vor die beliebteste Wahl für Batching und Streaming.

Welche der folgenden Orchestrierungstools verwenden Sie?

21%

Airflow

9%

Individuell oder selbstentwickelt

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

Sonstiges

57%

Keine

Erwartungsgemäß ist Apache Airflow das populärste Orchestrierungstool, vor allem bei Data Engineers. Interessanterweise sind 9% der verwendeten Orchestrierungstools Custom- oder Eigenentwicklungen.

Welche der folgenden Tools verwenden Sie für die Spark-Ausführung?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN und Amazon EMR sind die meistverwendeten Cloud-Lösungen für die Ausführung von Spark. Die Popularität von Kubernetes nimmt seit Jahren zu, während die Nutzung von YARN im Jahresvergleich um 8 Prozentpunkte zurückgegangen ist. Unternehmen neigen dazu, Data-Engineering-Tools in andere Teile der IT-Landschaft zu integrieren, anstatt separate Systeme wie YARN zu verwenden.

Welche der folgenden Tools verwenden Sie zur Erstellung von Data Lakes?

22%

Herkömmliche relationale Datenbanken

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

Sonstiges

53%

Keine

Welche der folgenden MPP-Tools verwenden Sie?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

Die Mehrheit der Befragten verwendet keine MPP-Tools, aber diejenigen, die dies tun, verwenden vornehmlich BigQuery, Redshift oder Azure SQL Data Warehouse.

Erstellen Sie normalerweise neue Cluster oder arbeiten Sie stets mit demselben Cluster?

49%

Ich arbeite ohne dedizierten Cluster

30%

Ich erstelle neue Cluster für meine Entwicklungsaufgaben

18%

Ich erledige meine gesamte Arbeit auf einem einzigen Cluster, der ständig läuft

3%

Sonstiges

Welche der folgenden Engines verwenden Sie für Ihre Data-Engineering-Aufgaben?

64%

Ich verwende keine Engines

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

Eine deutliche Mehrheit (64%) verwendet nach eigenen Angaben keine Engines für Data-Engineering-Aufgaben. Unter denjenigen, die Engines verwenden, sind BigQuery, Databricks und AWS Athena mit jeweils 10% gleich häufig vertreten. Amazon EMR, Redshift, AWS Glue und Azure Analysis Services folgen dicht dahinter.

Arbeiten Sie mit Message-Brokern oder Message-Queues (z. B. Kafka, RabbitMQ usw.)?

Welche der folgenden Tools verwenden Sie für Messaging und Auslieferung im Bereich Data Engineering?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Kafka ist die häufigste Wahl für Data-Engineering-bezogenes Messaging und Delivery (58%), gefolgt von RabbitMQ mit 46%. Interessanterweise gaben nur 2% der Befragten an, dass sie keine Messaging- oder Delivery-Tools verwenden.

Führen Sie Tests in Ihrem Data-Engineering-Codebestand durch?

Welche Testframeworks verwenden Sie?

59%

Ich verwende keine Frameworks

28%

Great Expectations

10%

Deequ

7%

Sonstiges

Die meisten Befragten führen keine Tests in ihrem Engineering-Codebestand durch. Unter den 31%, die dies tun, verwendet der Großteil entweder keine Frameworks oder Great Expectations.

Big Data:

2023

Danke, dass Sie sich die Zeit genommen haben!

Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.