Большие данные

Поделиться:

На вопросы из этого раздела отвечали специалисты по анализу данных и дата-инженеры, а также разработчики, занимающиеся машинным обучением, анализом и инжинирингом данных.

Поделиться:

Какие из следующих инструментов пакетной обработки вы используете?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

Другое

55%

Никакие

Какие из перечисленных фреймворков/инструментов потоковой обработки вы используете?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

Другое

64%

Никакие

Экосистема Spark остается основным выбором для пакетной и потоковой обработки данных.

Какие оркестраторы вы используете?

21%

Airflow

9%

Собственной разработки

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

Другое

57%

Никакие

Как и следовало ожидать, самый популярный оркестратор, особенно среди дата-инженеров, — Apache Airflow. Интересно, что 9% респондентов пользуются инструментами собственной разработки.

Какие из следующих инструментов вы используете для выполнения Spark?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN и Amazon EMR — самые популярные облачные решения для запуска Spark. При этом популярность Kubernetes растет из года в год, а вот использование YARN с прошлого года сократилось на 8 процентных пунктов. Компании предпочитают включать инструменты для работы с данными в другие части своей IT-инфраструктуры, а не использовать отдельные системы, такие как YARN.

Какие из следующих инструментов вы используете для построения озер данных?

22%

Традиционные реляционные БД

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

Другое

53%

Никакие

Какие из следующих инструментов массово-параллельной обработки (MPP) вы используете?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

Большинство респондентов не используют MPP-инструменты, а те, кто все же делает это, предпочитают BigQuery, Redshift и Azure SQL Data Warehouse.

Вы обычно работаете с одним и тем же кластером или создаете новые?

49%

Я работаю без выделенного кластера

30%

Я создаю новые кластеры для задач по разработке

18%

Я делаю всю работу в постоянно запущенном кластере

3%

Другое

Какие движки вы используете для задач дата-инжиниринга?

64%

Не использую движки

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

Большинство опрошенных (64%) не используют никаких движков для решения задач дата-инжиниринга. Среди пользователей движков одинаково популярны BigQuery, Databricks и AWS Athena, доля каждого из которых составляет 10%. Следом идут Amazon EMR, Redshift, AWS Glue и Azure Analysis Services.

Вы используете брокеры или инструменты поддержки очереди сообщений (например, Kafka, RabbitMQ и т. п.)?

Какие из следующих инструментов вы используете для обмена данными и доставки сообщений в рамках дата-инжиниринга?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Чаще всего для обмена и доставки сообщений дата-инженеры выбирают Kafka (58%), следом идет RabbitMQ (46%). Интересно, что только 2% респондентов не используют никаких инструментов для обмена сообщениями.

Вы выполняете тесты в кодовой базе проектов по дата-инжинирингу?

Какие фреймворки вы используете для тестирования?

59%

Не использую фреймворки

28%

Great Expectations

10%

Deequ

7%

Другое

Большинство респондентов не используют тесты в кодовой базе проектов по дата-инжинирингу. Те, кто все же проводят тестирование (31%), чаще всего обходятся без фреймворков или используют Great Expectations.

Большие данные:

2023

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.