Большие данные

На вопросы из этого раздела отвечали специалисты по анализу данных и дата-инженеры, а также разработчики, занимающиеся машинным обучением, анализом и инжинирингом данных.

Какие из следующих инструментов пакетной обработки вы используете?

Какие из перечисленных фреймворков/инструментов потоковой обработки вы используете?

Экосистема Spark остается основным выбором для пакетной и потоковой обработки данных.

Какие оркестраторы вы используете?

Как и следовало ожидать, самый популярный оркестратор, особенно среди дата-инженеров, — Apache Airflow. Интересно, что 9% респондентов пользуются инструментами собственной разработки.

Какие из следующих инструментов вы используете для выполнения Spark?

Kubernetes, YARN и Amazon EMR — самые популярные облачные решения для запуска Spark. При этом популярность Kubernetes растет из года в год, а вот использование YARN с прошлого года сократилось на 8 процентных пунктов. Компании предпочитают включать инструменты для работы с данными в другие части своей IT-инфраструктуры, а не использовать отдельные системы, такие как YARN.

Какие из следующих инструментов вы используете для построения озер данных?

Какие из следующих инструментов массово-параллельной обработки (MPP) вы используете?

Большинство респондентов не используют MPP-инструменты, а те, кто все же делает это, предпочитают BigQuery, Redshift и Azure SQL Data Warehouse.

Вы обычно работаете с одним и тем же кластером или создаете новые?

Какие движки вы используете для задач дата-инжиниринга?

Большинство опрошенных (64%) не используют никаких движков для решения задач дата-инжиниринга. Среди пользователей движков одинаково популярны BigQuery, Databricks и AWS Athena, доля каждого из которых составляет 10%. Следом идут Amazon EMR, Redshift, AWS Glue и Azure Analysis Services.

Вы используете брокеры или инструменты поддержки очереди сообщений (например, Kafka, RabbitMQ и т. п.)?

Какие из следующих инструментов вы используете для обмена данными и доставки сообщений в рамках дата-инжиниринга?

Чаще всего для обмена и доставки сообщений дата-инженеры выбирают Kafka (58%), следом идет RabbitMQ (46%). Интересно, что только 2% респондентов не используют никаких инструментов для обмена сообщениями.

Вы выполняете тесты в кодовой базе проектов по дата-инжинирингу?

Какие фреймворки вы используете для тестирования?

Большинство респондентов не используют тесты в кодовой базе проектов по дата-инжинирингу. Те, кто все же проводят тестирование (31%), чаще всего обходятся без фреймворков или используют Great Expectations.