ビッグデータ

共有:

このセクションの質問は、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト/データエンジニア/データサイエンティストを役職とする方に示されました。このアンケートは具体的に開発者を対象としているため、結果は、より幅広いビッグデータオーディエンスを代表するものではない可能性があります。

これらのうち、どのバッチ処理ツールを使用していますか?

31%

Spark

16%

Hadoop MapReduce

13%

Hive

7%

Dask

3%

Pig

1%

Tez

3%

その他

56%

なし

これらのうち、どのストリーミング処理ツールを使用していますか?

20%

Spark Streaming

8%

Flink

6%

Storm

5%

Dask

4%

Beam

3%

Apache NiFi

2%

Samza

3%

その他

65%

なし

データパイプラインの作成に携わっていないプロ開発者は、従来のリレーショナルデータベースを使ってデータレイクを構築しています。バッチ処理とストリーミング処理で最も一般的なツールは、引き続き Spark となっています。

これらのうち、どのオーケストレーションツールを使用していますか?

22%

Airflow

10%

カスタムまたは自作

6%

Apache NiFi

6%

Apache Oozie

3%

Prefect

2%

Luigi

2%

Dagster

5%

その他

59%

なし

当然予想していたように、Apache Airflow がデータエンジニアを中心に最も一般的なオーケストレーションツールです。興味深いことに、オーケストレーションツールの 10% がカスタムまたは自作のツールです。

これらのうち、どのツールを Spark の実行に使用していますか?

37%

Kubernetes

30%

YARN

27%

Amazon EMR

11%

Google DataProc

9%

Azure HDInsight

5%

Mesos

5%

Nomad

5%

DataBricks

3%

AWS Glue

2%

その他

13%

なし

Spark を実行するのに最も一般的なクラウドソリューションは、Kubernetes、YARN、および Amazon EMR です。

これらのうち、どのツールをデータレイクの構築に使用していますか?

24%

従来のリレーショナルデータベース

15%

Delta Lake

6%

MPP

4%

Iceberg

3%

Hudi

7%

その他

54%

なし

これらのうち、どの MPP ツールを使用していますか?

15%

BigQuery

13%

Redshift

11%

Azure SQL Data Warehouse

9%

Azure Data Explorer

5%

ClickHouse

3%

Greenplum

3%

Spanner

4%

その他

61%

なし

回答者の大半は MPP ツールを使用していません。最も一般的なツールは、BigQuery、Redshift、および Azure SQL DATA Warehouse です。

メッセージブローカーまたはメッセージキュー(Kafka、RabbitMQ など)を使用していますか?

これらのうち、どのツールをメッセージングと配信に使用していますか?

49%

RabbitMQ

42%

Kafka

20%

Amazon SQS

9%

ActiveMQ

7%

RocketMQ

5%

Azure Event Hub

4%

Amazon Kinesis

ビッグデータ:

2022

最後までご覧いただきありがとうございました!

レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。

ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。