大数据

分享:

本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。本调查专门针对开发者,因此结果可能无法代表更广泛的大数据受众。

您使用以下哪种(哪些)批处理工具?

31%

Spark

16%

Hadoop MapReduce

13%

Hive

7%

Dask

3%

Pig

1%

Tez

3%

其他

56%

您使用以下哪种(哪些)流处理工具?

20%

Spark Streaming

8%

Flink

6%

Storm

5%

Dask

4%

Beam

3%

Apache NiFi

2%

Samza

3%

其他

65%

不参与数据管道创建的专业人士使用传统关系数据库构建数据湖。Spark 仍然是最流行的批处理和流处理工具。

您使用以下哪种(哪些)编排工具?

22%

Airflow

10%

定制或自制

6%

Apache NiFi

6%

Apache Oozie

3%

Prefect

2%

Luigi

2%

Dagster

5%

其他

59%

不出所料,Apache Airflow 是最受欢迎的编排工具,特别是在数据工程师中。有趣的是,10% 的编排工具是自定义或自建的。

您使用以下哪种(哪些)工具执行 Spark?

37%

Kubernetes

30%

YARN

27%

Amazon EMR

11%

Google DataProc

9%

Azure HDInsight

5%

Mesos

5%

Nomad

5%

DataBricks

3%

AWS Glue

2%

其他

13%

Kubernetes、YARN 和 Amazon EMR 是最流行的 Spark 执行云解决方案。

您使用以下哪种(哪些)工具构建数据湖?

24%

传统关系数据库

15%

Delta Lake

6%

MPP

4%

Iceberg

3%

Hudi

7%

其他

54%

您使用以下哪种(哪些)MPP 工具?

15%

BigQuery

13%

Redshift

11%

Azure SQL Data Warehouse

9%

Azure Data Explorer

5%

ClickHouse

3%

Greenplum

3%

Spanner

4%

其他

61%

绝大多数受访者不使用 MPP 工具。BigQuery、Redshift 和 Azure SQL Data Warehouse 是最受欢迎的工具。

您是否使用消息代理或消息队列(例如 Kafka、RabbitMQ)?

您使用以下哪种(哪些)工具进行消息传递和递送?

49%

RabbitMQ

42%

Kafka

20%

Amazon SQS

9%

ActiveMQ

7%

RocketMQ

5%

Azure Event Hub

4%

Amazon Kinesis

大数据:

2022

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com