Большие данные
Поделиться:
На вопросы из этого раздела отвечали те, кто работает в области анализа и инжиниринга данных, а также машинного обучения, либо те, кто занимает должность дата-инженера или специалиста по анализу данных. Наш опрос ориентирован именно на разработчиков, поэтому результаты не могут в полной мере отражать более широкую аудиторию профессионалов в сфере больших данных.
Специалисты, не связанные с созданием конвейеров данных, используют для построения озер данных привычные реляционные БД. Самым популярным инструментом для пакетной обработки и обработки потоковых данных остается Spark.
Как и следовало ожидать, самый популярный оркестратор, особенно среди дата-инженеров, — Apache Airflow. Интересно, что 10% респондентов используют инструменты собственной разработки.
Самые распространенные облачные решения для выполнения Spark — Kubernetes, YARN и Amazon EMR.
Подавляющее большинство респондентов не используют MPP-инструменты. У остальных наибольшей популярностью пользуются BigQuery, Redshift и Azure SQL Data Warehouse.
Спасибо, что уделили время!
Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.
Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.