ビッグデータ
共有:
このセクションの質問は、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティストを役職とする方に提示されました。
共有:
当たり前に予想できていたことですが、Apache Airflow がデータエンジニアを中心に最も人気のオーケストレーションツールとなっています。興味深いことに、使用されているオーケストレーションツールの 9% がカスタムまたは自作のツールです。
Spark の実行では、Kubernetes、YARN、および Amazon EMR が最も一般的なクラウドソリューションです。Kubernetes は年々人気度を増していますが、YARN の使用率は年々 8 パーセントポイント減少しています。企業は YARN のようなシステムを別途使用するのでは なく、IT ランドスケープの別の部分にデータエンジニアリングツールを含める方を好む傾向にあります。
回答者の大半は MPP ツールを使用していませんが、使用している開発者は BigQuery、Redshift、または Azure SQL Data Warehouse を使用する傾向にあります。
かなり多数(64%)の回答者がデータエンジニアリング業務にエンジンを使用していないと答えていました。エンジンを使用する開発者の間では BigQuery、Databricks、AWS Athena がそれぞれ 10% の割合で均等に支持されており、Amazon EMR、Redshift、AWS Glue、Azure Analysis Services が僅差で続いています。
データエンジニアリング関連のメッセージングと配信で最も人気の選択肢は Kafka が 58% で突出しており、46% の RabbitMQ がそれに続いています。興味深いことに、わずか 2% の回答者がメッセージングまたは配信ツールを使用していないと答えています。
ほとんどの回答者はエンジニアリングのコードベースでテストを実行していません。テストを実行している 31% の回答者の中では大多数がフレームワークを使用していない、または Great Expectations を使用していると答えています。
最後までご覧いただきありがとうございました!
レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。
ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。