ビッグデータ

共有:

このセクションの質問は、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティストを役職とする方に提示されました。

共有:

次のうち、どのバッチ処理ツールを使用していますか?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

その他

55%

該当なし

次のうち、どのストリーミング処理フレームワーク / ツールを使用していますか?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

その他

64%

該当なし

Spark エコシステムは、バッチおよびストリーミング処理向けの選択肢として最も高い人気を得続けています。

次のうち、どのオーケストレーションツールを使用していますか?

21%

Airflow

9%

カスタムまたは自作

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

その他

57%

該当なし

当たり前に予想できていたことですが、Apache Airflow がデータエンジニアを中心に最も人気のオーケストレーションツールとなっています。興味深いことに、使用されているオーケストレーションツールの 9% がカスタムまたは自作のツールです。

次のうち、どのツールを Spark の実行に使用していますか?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Spark の実行では、Kubernetes、YARN、および Amazon EMR が最も一般的なクラウドソリューションです。Kubernetes は年々人気度を増していますが、YARN の使用率は年々 8 パーセントポイント減少しています。企業は YARN のようなシステムを別途使用するのではなく、IT ランドスケープの別の部分にデータエンジニアリングツールを含める方を好む傾向にあります。

次のうち、どのツールをデータレイクの構築に使用していますか?

22%

従来のリレーショナルデータベース

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

その他

53%

該当なし

次のうち、どの MPP ツールを使用していますか?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

回答者の大半は MPP ツールを使用していませんが、使用している開発者は BigQuery、Redshift、または Azure SQL Data Warehouse を使用する傾向にあります。

普段は新しいクラスターを作成していますか?それとも常に同じクラスターを使用していますか?

49%

専用のクラスターを使用せずに作業している

30%

自分の開発タスク用に新しいクラスターを作成している

18%

無停止の 1 つのクラスターですべての作業を行っている

3%

その他

次のうち、どのエンジンをデータエンジニアリング業務に使用していますか?

64%

エンジンは使用していない

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

かなり多数(64%)の回答者がデータエンジニアリング業務にエンジンを使用していないと答えていました。エンジンを使用する開発者の間では BigQuery、Databricks、AWS Athena がそれぞれ 10% の割合で均等に支持されており、Amazon EMR、Redshift、AWS Glue、Azure Analysis Services が僅差で続いています。

メッセージブローカーまたはメッセージキュー(Kafka、RabbitMQ など)を使用していますか?

次のうち、どのツールをデータエンジニアリング関連のメッセージングと配信に使用していますか?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

データエンジニアリング関連のメッセージングと配信で最も人気の選択肢は Kafka が 58% で突出しており、46% の RabbitMQ がそれに続いています。興味深いことに、わずか 2% の回答者がメッセージングまたは配信ツールを使用していないと答えています。

データエンジニアリングのコードベースでテストを実行していますか?

どのテストフレームワークを使用していますか?

59%

フレームワークは使用していない

28%

Great Expectations

10%

Deequ

7%

その他

ほとんどの回答者はエンジニアリングのコードベースでテストを実行していません。テストを実行している 31% の回答者の中では大多数がフレームワークを使用していない、または Great Expectations を使用していると答えています。

ビッグデータ:

2023

最後までご覧いただきありがとうございました!

レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。

ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。