Большие данные
Поделиться:
На вопросы из этого раздела отвечали специалисты по анализу данных и дата-инженеры, а также разработчики, занимающиеся машинным обучением, анализом и инжинирингом данных.
Поделиться:
Как и следовало ожидать, самый популярный оркестратор, особенно среди дата-инженеров, — Apache Airflow. Интересно, что 9% респондентов пользуются инструментами собственной разработки.
Kubernetes, YARN и Amazon EMR — самые популярные облачные решения для запуска Spark. При этом популярность Kubernetes растет из года в год, а вот использование YARN с прошлого года сократилось на 8 процентных пунктов. Компании предпочитают включать инструменты для работы с данными в другие части своей IT-инфраструктуры, а не использовать отдельные системы, такие как YARN.
Большинство респондентов не используют MPP-инструменты, а те, кто все же делает это, предпочитают BigQuery, Redshift и Azure SQL Data Warehouse.
Большинство опрошенных (64%) не используют никаких движков для решения задач дата-инжиниринга. Среди пользователей движков одинаково популярны BigQuery, Databricks и AWS Athena, доля каждого из которых составляет 10%. Следом идут Amazon EMR, Redshift, AWS Glue и Azure Analysis Services.
Чаще всего для обмена и доставки сообщений дата-инженеры выбирают Kafka (58%), следом идет RabbitMQ (46%). Интересно, что только 2% респондентов не используют никаких инструментов для обмена сообщениями.
Большинство респондентов не используют тесты в кодовой базе проектов по дата-инжинирингу. Те, кто все же проводят тестирование (31%), чаще всего обходятся без фреймворков или используют Great Expectations.
Спасибо, что уделили время!
Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.
Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.