Большие данные

Поделиться:

На вопросы из этого раздела отвечали те, кто работает в области анализа и инжиниринга данных, а также машинного обучения, либо те, кто занимает должность дата-инженера или специалиста по анализу данных. Наш опрос ориентирован именно на разработчиков, поэтому результаты не могут в полной мере отражать более широкую аудиторию профессионалов в сфере больших данных.

Какие из следующих инструментов пакетной обработки вы используете?

31%

Spark

16%

Hadoop MapReduce

13%

Hive

7%

Dask

3%

Pig

1%

Tez

3%

Другое

56%

Ни одного

Какие из следующих инструментов обработки потоковых данных вы используете?

20%

Spark Streaming

8%

Flink

6%

Storm

5%

Dask

4%

Beam

3%

Apache NiFi

2%

Samza

3%

Другое

65%

Ни одного

Специалисты, не связанные с созданием конвейеров данных, используют для построения озер данных привычные реляционные БД. Самым популярным инструментом для пакетной обработки и обработки потоковых данных остается Spark.

Какие оркестраторы вы используете?

22%

Airflow

10%

Собственной разработки

6%

Apache NiFi

6%

Apache Oozie

3%

Prefect

2%

Luigi

2%

Dagster

5%

Другое

59%

Ни одного

Как и следовало ожидать, самый популярный оркестратор, особенно среди дата-инженеров, — Apache Airflow. Интересно, что 10% респондентов используют инструменты собственной разработки.

Какие из следующих инструментов вы используете для выполнения Spark?

37%

Kubernetes

30%

YARN

27%

Amazon EMR

11%

Google DataProc

9%

Azure HDInsight

5%

Mesos

5%

Nomad

5%

DataBricks

3%

AWS Glue

2%

Другое

13%

Ни одного

Самые распространенные облачные решения для выполнения Spark — Kubernetes, YARN и Amazon EMR.

Какие из следующих инструментов вы используете для построения озер данных?

24%

Традиционные реляционные БД

15%

Delta Lake

6%

MPP

4%

Iceberg

3%

Hudi

7%

Другое

54%

Ни одного

Какие из следующих инструментов массово-параллельной обработки (MPP) вы используете?

15%

BigQuery

13%

Redshift

11%

Azure SQL Data Warehouse

9%

Azure Data Explorer

5%

ClickHouse

3%

Greenplum

3%

Spanner

4%

Другое

61%

Ни одного

Подавляющее большинство респондентов не используют MPP-инструменты. У остальных наибольшей популярностью пользуются BigQuery, Redshift и Azure SQL Data Warehouse.

Вы используете брокеры или инструменты поддержки очереди сообщений (например, Kafka или RabbitMQ)?

Какие из следующих инструментов вы используете для обработки и доставки сообщений?

49%

RabbitMQ

42%

Kafka

20%

Amazon SQS

9%

ActiveMQ

7%

RocketMQ

5%

Azure Event Hub

4%

Amazon Kinesis

Большие данные:

2022

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.