На вопросы из этого раздела отвечали разработчики, работающие в области анализа и инжиниринга данных, а также машинного обучения, либо те, кто занимает должность инженера данных или специалиста по анализу данных и Data Science. Этот опрос рассчитан конкретно на разработчиков, поэтому результаты могут быть нерепрезентативными для более широкой аудитории в сфере больших данных.

Большие данные

Какие программные пакеты вы используете для анализа и визуализации данных?

Чаще всего для анализа и визуализации данных используются редакторы электронных таблиц (46%).

Какие платформы вы используете для анализа больших данных?

Большинство разработчиков, работающих с большими данными, не используют платформы анализа данных (68%). Самая распространенная из таких платформ — Google Colab (19%).

Какие инструменты вы используете для обработки больших данных?

Jupyter — самый популярный инструмент для работы с большими данными: его используют 32% разработчиков в этой сфере. Другие популярные инструменты — Apache Spark (20%) и Apache Kafka (17%).

Какой версией Spark вы пользуетесь?

Где хранится большая часть ваших данных?

Данные в основном размещаются на внутренних серверах (36%) или локально (26%). 21% респондентов используют для размещения данных AWS, другие варианты встречаются гораздо реже.

IT — основное направление деятельности вашей компании?

Специалисты по машинному обучению чаще работают в ИТ-компаниях.

В каких областях ваша компания ведет основную деятельность?

За пределами ИТ-отрасли инженеры данных чаще работают в финансовой сфере, а специалисты по машинному обучению — в образовании и науке.

В каких областях ваша компания ведет основную деятельность?

Использование Python, Scala и Java вместе с Apache Spark

66% респондентов используют вместе с Apache Spark язык Python, 34% — Java, а 11% — Scala.

10 самых распространенных сочетаний инструментов для работы с большими данными

10% используют Apache Spark и Apache Kafka. 9% используют Apache Spark и Apache Hadoop.

3 основных языка, используемых вместе с Apache Kafka

Вместе с Apache Kafka чаще всего используются Python, Java и SQL.

Соотношение Python/R в США, Европе, России и Азии

R шире используется в России (5%), Python — в Азии (59%).

Основной язык в зависимости от вариантов размещения больших данных

С Google Cloud чаще используются Python и Java, с AWS — JavaScript и PHP, а с Azure — C#.

Использование инструментов для работы с большими данными в зависимости от вариантов размещения последних

С Google Cloud чаще используются Jupyter и Apache Beam. Пользователи AWS предпочитают Apache Spark и Apache Kafka.

Основной язык в зависимости от работы в сфере анализа данных, инжиниринга данных или машинного обучения

По сравнению с разработчиками, занятыми анализом и инжинирингом данных, специалисты по машинному обучению чаще используют Python, C++ и C, реже — SQL и PHP.

Основной язык по отраслям

Разработчики, работающие в сфере образования и науки, чаще используют Python и R.

Использование инструментов для работы с большими данными по отраслям

В образовании и науке чаще используют Jupyter, в банковской сфере предпочитают Apache Spark, Apache Kafka, Apache Hadoop и Apache Hive.

Доля Apache Spark по странам и регионам

Самые большие доли пользователей Apache Spark — в Китае, Индии, Южной Корее, Испании и Латинской Америке.

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Присоединяйтесь к JetBrains Tech Insights Lab

Участвуйте в опросах и UX-исследованиях JetBrains, чтобы помочь нам улучшить наши продукты. Среди участников исследований разыгрываются призы.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.