大数据

分享:

本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。

分享:

您使用以下哪种(哪些)批处理工具?

您使用以下哪种(哪些)流处理框架/工具?

Spark 生态系统仍然是批处理和流处理最受欢迎的选择。

您使用以下哪种(哪些)编排工具?

不出所料,Apache Airflow 是最受欢迎的编排工具,特别是在数据工程师中。有趣的是,9% 的编排工具是自定义或自建的。

您使用以下哪种(哪些)工具执行 Spark?

Kubernetes、YARN 和 Amazon EMR 是最受欢迎的 Spark 执行云解决方案。Kubernetes 的受欢迎程度逐年上升,而 YARN 的使用率却同比下降 8 个百分点。公司倾向于将数据工程工具纳入 IT 领域的其他部分,而不是使用类似于 YARN 的单独系统。

您使用以下哪种(哪些)工具构建数据湖?

您使用以下哪种(哪些)MPP 工具?

大多数受访者不使用 MPP 工具,但使用的受访者倾向于使用 BigQuery、Redshift 或 Azure SQL Data Warehouse。

您通常是创建新集群还是一直使用同一个集群?

您将以下哪种(哪些)引擎用于数据工程任务?

绝大多数 (64%) 表示不使用引擎来完成数据工程任务。在引擎用户中,BigQuery、Databricks 和 AWS Athena 的受欢迎程度相同,各占 10%。Amazon EMR、Redshift、AWS Glue 和 Azure Analysis Services 紧随其后。

您是否使用消息代理或消息队列(例如 Kafka、RabbitMQ)?

您使用以下哪种(哪些)工具进行数据工程相关消息传递和递送?

Kafka 成为数据工程相关消息传递和递送最受欢迎的选择 (58%),RabbitMQ 紧随其后,占 46%。有趣的是,只有 2% 的受访者表示不使用任何消息传递或递送工具。

您是否在数据工程代码库中运行测试?

您使用哪种(哪些)测试框架?

大多数受访者不在工程代码库中运行测试。在 31% 运行的人中,最大比例要么不使用任何框架,要么使用 Great Expectations。

大数据:

2023

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com