ビッグデータ

共有:

このセクションの質問は、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティストを役職とする方に提示されました。

共有:

次のうち、どのバッチ処理ツールを使用していますか?

次のうち、どのストリーミング処理フレームワーク / ツールを使用していますか?

Spark エコシステムは、バッチおよびストリーミング処理向けの選択肢として最も高い人気を得続けています。

次のうち、どのオーケストレーションツールを使用していますか?

当たり前に予想できていたことですが、Apache Airflow がデータエンジニアを中心に最も人気のオーケストレーションツールとなっています。興味深いことに、使用されているオーケストレーションツールの 9% がカスタムまたは自作のツールです。

次のうち、どのツールを Spark の実行に使用していますか?

Spark の実行では、Kubernetes、YARN、および Amazon EMR が最も一般的なクラウドソリューションです。Kubernetes は年々人気度を増していますが、YARN の使用率は年々 8 パーセントポイント減少しています。企業は YARN のようなシステムを別途使用するのではなく、IT ランドスケープの別の部分にデータエンジニアリングツールを含める方を好む傾向にあります。

次のうち、どのツールをデータレイクの構築に使用していますか?

次のうち、どの MPP ツールを使用していますか?

回答者の大半は MPP ツールを使用していませんが、使用している開発者は BigQuery、Redshift、または Azure SQL Data Warehouse を使用する傾向にあります。

普段は新しいクラスターを作成していますか?それとも常に同じクラスターを使用していますか?

次のうち、どのエンジンをデータエンジニアリング業務に使用していますか?

かなり多数(64%)の回答者がデータエンジニアリング業務にエンジンを使用していないと答えていました。エンジンを使用する開発者の間では BigQuery、Databricks、AWS Athena がそれぞれ 10% の割合で均等に支持されており、Amazon EMR、Redshift、AWS Glue、Azure Analysis Services が僅差で続いています。

メッセージブローカーまたはメッセージキュー(Kafka、RabbitMQ など)を使用していますか?

次のうち、どのツールをデータエンジニアリング関連のメッセージングと配信に使用していますか?

データエンジニアリング関連のメッセージングと配信で最も人気の選択肢は Kafka が 58% で突出しており、46% の RabbitMQ がそれに続いています。興味深いことに、わずか 2% の回答者がメッセージングまたは配信ツールを使用していないと答えています。

データエンジニアリングのコードベースでテストを実行していますか?

どのテストフレームワークを使用していますか?

ほとんどの回答者はエンジニアリングのコードベースでテストを実行していません。テストを実行している 31% の回答者の中では大多数がフレームワークを使用していない、または Great Expectations を使用していると答えています。

ビッグデータ:

2023

最後までご覧いただきありがとうございました!

レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。

ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。