Большие данные

На вопросы из этого раздела отвечали те, кто работает в области анализа и инжиниринга данных, а также машинного обучения, либо те, кто занимает должность дата-инженера или специалиста по анализу данных. Наш опрос ориентирован именно на разработчиков, поэтому результаты не могут в полной мере отражать более широкую аудиторию профессионалов в сфере больших данных.

Какие из следующих инструментов пакетной обработки вы используете?

Какие из следующих инструментов обработки потоковых данных вы используете?

Специалисты, не связанные с созданием конвейеров данных, используют для построения озер данных привычные реляционные БД. Самым популярным инструментом для пакетной обработки и обработки потоковых данных остается Spark.

Какие оркестраторы вы используете?

Как и следовало ожидать, самый популярный оркестратор, особенно среди дата-инженеров, — Apache Airflow. Интересно, что 10% респондентов используют инструменты собственной разработки.

Какие из следующих инструментов вы используете для выполнения Spark?

Самые распространенные облачные решения для выполнения Spark — Kubernetes, YARN и Amazon EMR.

Какие из следующих инструментов вы используете для построения озер данных?

Какие из следующих инструментов массово-параллельной обработки (MPP) вы используете?

Подавляющее большинство респондентов не используют MPP-инструменты. У остальных наибольшей популярностью пользуются BigQuery, Redshift и Azure SQL Data Warehouse.