大数据

分享:

本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。

分享:

您使用以下哪种(哪些)批处理工具?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

其他

55%

您使用以下哪种(哪些)流处理框架/工具?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

其他

64%

Spark 生态系统仍然是批处理和流处理最受欢迎的选择。

您使用以下哪种(哪些)编排工具?

21%

Airflow

9%

定制或自制

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

其他

57%

不出所料,Apache Airflow 是最受欢迎的编排工具,特别是在数据工程师中。有趣的是,9% 的编排工具是自定义或自建的。

您使用以下哪种(哪些)工具执行 Spark?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes、YARN 和 Amazon EMR 是最受欢迎的 Spark 执行云解决方案。Kubernetes 的受欢迎程度逐年上升,而 YARN 的使用率却同比下降 8 个百分点。公司倾向于将数据工程工具纳入 IT 领域的其他部分,而不是使用类似于 YARN 的单独系统。

您使用以下哪种(哪些)工具构建数据湖?

22%

传统关系数据库

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

其他

53%

您使用以下哪种(哪些)MPP 工具?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

大多数受访者不使用 MPP 工具,但使用的受访者倾向于使用 BigQuery、Redshift 或 Azure SQL Data Warehouse。

您通常是创建新集群还是一直使用同一个集群?

49%

我没有专用的集群

30%

我为我的开发任务创建新集群

18%

我在一个永不停止的集群上完成所有工作

3%

其他

您将以下哪种(哪些)引擎用于数据工程任务?

64%

我不使用任何引擎

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

绝大多数 (64%) 表示不使用引擎来完成数据工程任务。在引擎用户中,BigQuery、Databricks 和 AWS Athena 的受欢迎程度相同,各占 10%。Amazon EMR、Redshift、AWS Glue 和 Azure Analysis Services 紧随其后。

您是否使用消息代理或消息队列(例如 Kafka、RabbitMQ)?

您使用以下哪种(哪些)工具进行数据工程相关消息传递和递送?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Kafka 成为数据工程相关消息传递和递送最受欢迎的选择 (58%),RabbitMQ 紧随其后,占 46%。有趣的是,只有 2% 的受访者表示不使用任何消息传递或递送工具。

您是否在数据工程代码库中运行测试?

您使用哪种(哪些)测试框架?

59%

我不使用任何框架

28%

Great Expectations

10%

Deequ

7%

其他

大多数受访者不在工程代码库中运行测试。在 31% 运行的人中,最大比例要么不使用任何框架,要么使用 Great Expectations。

大数据:

2023

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com