Data Science

Поделиться:

На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и специалисты по анализу данных.

Какое место в вашей работе занимает Data Science, анализ и инжиниринг данных или машинное обучение?

Многие респонденты сочетают задачи в области Data Science с другой работой. Результаты говорят о том, что эта сфера становится более открытой, поэтому имеет потенциал рыночного роста.

Чем вы занимаетесь?

54%

Визуализация данных

50%

Сбор/извлечение данных

42%

Моделирование машинного обучения

38%

Разведочный анализ данных

32%

Пайплайны данных

21%

Архитектура хранилищ

19%

Управление данными

15%

MLOps

1%

Другое

9%

Ничего

Компания JetBrains разработала Datalore — платформу для совместной работы с данными. Она предоставляет не только помощь в программировании, но и автоматические функции анализа и визуализации данных, не требующие написания кода. Благодаря этому даже пользователи без технической подготовки могут при необходимости подготовить отчет или визуализацию данных с помощью того же инструмента, что и команда дата-специалистов.

Как вы получили образование в сфере Data Science, машинного обучения или инжиниринга данных?

63%

Изучали самостоятельно

40%

Изучали программирование или анализ данных в университете

32%

Закончили онлайн-курсы

17%

Перешли из разработчиков

3%

Другое

Самостоятельные должности для специалистов по анализу и инжинирингу данных, а также машинному обучению появились относительно недавно. Многие респонденты перешли на эту работу, получив опыт или пройдя обучение в смежных сферах, поэтому им было необходимо повышать квалификацию путем самообразования или онлайн-обучения. Исторически в Data Science и машинное обучение чаще всего приходили обладатели магистерских степеней в STEM-дисциплинах, но мы наблюдаем, что за семь лет в этих областях становилось все больше бакалавров: в 2015 году их было 20%, а в 2021-м — уже 31%. Количество выпускников бакалавриата, специализирующихся на анализе данных, постоянно растет, и мы, вероятно, увидим, как изменятся результаты в пользу людей, получивших образование по специальностям, напрямую связанным с Data Science.

Какие IDE или редакторы вы используете для Data Science или анализа данных?

42%

Jupyter-ноутбуки

41%

Visual Studio Code

31%

PyCharm Professional

19%

Google Colab

17%

JupyterLab

14%

DataGrip

9%

Kaggle

Среди редакторов для Data Science и анализа данных первое место занимают Jupyter-ноутбуки: ими пользуются около 40% респондентов. Среди тех, кто занимается сбором, визуализацией и разведочным анализом данных, а также моделированием машинного обучения, доля Jupyter-ноутбуков еще выше — 70%.

Подробнее об этом можно узнать из нашего недавнего исследования. Мы выяснили, что с 2019 по 2020 год количество ноутбуков для Python 3 увеличилось на 87%, а количество ноутбуков для Python 2 снизилось на 12%.

Какую часть рабочего времени вы проводите за работой с ноутбуками?

11%

Не пользуюсь ноутбуками

48%

10–20%

23%

20–40%

18%

Более 40%

Для чего вы используете ноутбуки?

69%

Разведочный анализ данных

68%

Эксперименты с данными / запросы к данным

64%

Визуализация

43%

Прототипирование моделей

9%

Оркестрация

2%

Другое

Jupyter-ноутбуки остаются одним из самых популярных инструментов: ими пользуются 42% респондентов, а среди тех, для кого работа с данными — основное занятие, более 50%. Ноутбуки используются в первую очередь для исследовательской работы, например разведочного анализа данных и прототипирования моделей. Однако даже среди тех, для кого анализ данных является основной работой, лишь меньшинство использует ноутбуки более 40% рабочего времени.

Управляете ли вы версиями ноутбуков?

Какие системы контроля версий вы используете?

66%

Git

62%

GitHub

22%

GitLab

18%

Создаю версии в редакторе кода или IDE

9%

Создаю несколько копий ноутбуков

2%

Другое

Доля респондентов, использующих системы контроля версий для ноутбуков, весьма значительна. Это хороший признак: значит, много кто рассматривает ноутбуки как код, требующий обслуживания. Чаще всего для этого используют Git и GitHub.

Управлять версиями Jupyter-ноутбуков с помощью интерфейса командной строки (CLI) бывает сложно. К счастью, DataSpell предлагает широкий набор функций работы с Git: удобный интерфейс позволит выполнить основные действия, например настроить репозиторий, добавить ноутбуки и сохранить версии, посмотреть различия между коммитами, даже если вы не помните ни одной Git-команды. Подробнее об использовании Git с Jupyter-ноутбуками в DataSpell читайте в этой статье.

С какими типами источников данных вы работаете?

67%

Локальные файлы

52%

Базы данных SQL

24%

​​Amazon S3

19%

Большие данные

14%

Файловое хранилище Google

8%

Файловое хранилище Azure

5%

Другое

Базы данных SQL остаются самым распространенным источником данных для специалистов по анализу данных, не считая локальных файлов.

Какие инструменты вы используете для подготовки отчетов и визуализации результатов?

41%

PowerPoint, Google Презентации или аналогичные

40%

Показываю ноутбук

37%

Редактор электронных таблиц

25%

MS Word, Google Документы или аналогичные

14%

Microsoft Power BI

11%

Tableau

6%

Plotly Dash

3%

Streamlit

1%

Qlick

1%

Voila

11%

Другое

Datalore позволяет в считанные секунды превратить Jupyter-ноутбук в информационное приложение. Достаточно отсортировать ячейки в рабочей зоне, опубликовать отчет в статическом или интерактивном режиме — и можно делиться ссылкой.

Пример отчета

Какие методы и алгоритмы вы используете?

55%

Нейронные сети

50%

Линейная или логистическая регрессия

37%

Деревья решений или алгоритмы случайного леса

34%

Методы кластеризации

27%

Методы обработки естественного языка

23%

Байесовские методы

21%

Статистическое тестирование

Респонденты по-прежнему широко используют такие основные алгоритмы машинного обучения, как регрессионные и древовидные методы. При этом большинство использует также нейронные сети, в первую очередь архитектуры Transformer. Работать с трансформер-сетями становится проще, их популярность растет, и это объясняет, почему больше четверти опрошенных заявили, что работают в области NLP. Интересно, что только пятая часть респондентов используют в работе статистическое тестирование: вероятно, за классические статистические методы теперь отвечают технологии машинного и глубокого обучения.

Какие фреймворки машинного обучения вы используете?

55%

TensorFlow

47%

Scikit-learn

45%

PyTorch

31%

Keras

14%

XGBoost

7%

LightGBM

5%

fast.ai

В целом самый распространенный фреймворк глубокого обучения — TensorFlow. А среди тех, для кого работа с данными является основным занятием, он делит первое место с PyTorch. Самой популярной библиотекой машинного обучения стала Scikit-learn, при этом заметные доли опрошенных используют специальные пакеты и фреймворки древовидного моделирования, такие как XGBoost и LightGBM.

Какие решения корпоративного класса для машинного обучения вы используете?

13%

Amazon Sagemaker

9%

Azure Machine Learning Studio

6%

Vertex AI

4%

Azure DataBricks

4%

IBM Watson Studio

2%

Gradient

2%

H2O

Самые популярные облачные решения такого класса — службы Amazon.

Сколько человек в вашей команде по анализу данных?

16%

1–2

33%

3–5

24%

6-10

9%

11–15

18%

Более 15

Большинство респондентов — 70% — работают в небольших группах (не более 10 человек). Каждый пятый входит в команду, насчитывающую более 15 специалистов.

Есть ли в вашей команде отдельная должность дата-инженера?

Самостоятельная должность дата-инженера есть почти в половине команд.

Есть ли в вашей команде отдельная должность специалиста по машинному обучению?

Чуть больше 50% респондентов заявили, что в их командах есть отдельные должности дата-инженеров или специалистов по машинному обучению. И «дата-инженер», и «специалист по машинному обучению» — довольно широкие понятия, поэтому должностные обязанности в разных компаниях могут сильно отличаться. Вполне вероятно, что эти специалисты решают схожие задачи по машинному обучению, например занимаются разработкой моделей и управлением конвейером данных. Логично, что, чем больше команда, тем вероятнее, что в ней будет отдельный специалист, занимающий одну из этих должностей. Более 80% респондентов, работающих в командах по 1–2 человека, сказали, что у них нет ни дата-инженера, ни специалиста по машинному обучению. В то же время 79% тех, кто работает в командах от 15 человек, ответили, что у них есть отдельная должность дата-инженера, а 65% — что у них есть отдельный специалист по машинному обучению.

Вы обучаете модели машинного или глубокого обучения?

Чуть меньше половины респондентов обучают модели машинного или глубокого обучения. Среди тех, кто назвал работу с данными своим основным занятием, таким обучением занимаются 60%. Таким образом, создание прогностических моделей становится ключевым элементом работы с данными.

Используете ли вы ГП для обучения моделей?

Какой объем VRAM вам обычно требуется для задач по машинному обучению?

28%

8 ГБ

33%

16 ГБ

23%

32 ГБ

10%

64 ГБ

5%

128 ГБ

Большинство респондентов используют графические процессоры для обучения моделей машинного или глубокого обучения. Что касается необходимого объема VRAM, он отличается в зависимости от того, какое отношение респонденты имеют к работе с данными. 8 ГБ хватает 40 процентам респондентов, для которых это хобби или часть обучения, но только 18 процентам тех, для кого это основная работа.

Сколько времени в месяц вы тратите на обучение моделей?

30%

От 0 до 5 часов

33%

От 5 до 20 часов

21%

От 20 до 50 часов

8%

От 50 до 100 часов

8%

Более 100 часов

Большинство респондентов тратят на обучение моделей до 20 часов в неделю, но сюда может входить время, в течение которого процессы обучения запущены по ночам. Почти треть тратит на обучение моделей до 5 часов в неделю. Это соответствует полученным ранее результатам, которые показывают, что обучение моделей — это лишь небольшая часть работы специалистов по Data Science, а основное время занимает подготовка и анализ данных.

Какие виды вычислительных ресурсов вы используете для задач Data Science?

61%

Локальные ресурсы

29%

Ресурсы компании на локальных серверах

22%

Amazon Web Services

13%

Google Cloud Platform

9%

Microsoft Azure

3%

Другое

14%

Ничего

Большинство респондентов используют для задач Data Science локальные ресурсы, что вполне согласуется с результатами опроса в целом: основная работа в ноутбуках — это исследование и визуализация данных, при этом большинство работает с локальными файлами. Интересно, что ответы не очень отличаются в зависимости от того, какое отношение респонденты имеют к работе с данными: и те, для кого это основное занятие, и те, для кого это хобби или часть обучения, с равной вероятностью используют локальные ресурсы.

Какие специальные инструменты вы используете для отслеживания результатов обучения моделей?

23%

TensorBoard

8%

MLflow

4%

WandB

2%

Другое

69%

Ничего

Большинство опрошенных заявили, что не используют никакие инструменты для отслеживания эффективности обучения моделей. Чаще такими инструментами пользуются в командах, насчитывающих 15 и более человек (58% респондентов из таких команд ответили, что используют по крайней мере один инструмент), там, где есть отдельный специалист по машинному обучению (62%), или если респонденты занимаются разработкой и внедрением моделей машинного обучения (63%). Это указывает на то, что подобные инструменты, как правило, используются в среде, где есть носители специальных знаний, относящихся к разработке моделей машинного обучения.

Какие диаграммы вы чаще всего используете для визуализации данных?

60%

Линейный график

56%

Гистограмма

55%

Диаграмма рассеяния

50%

Столбчатая диаграмма

29%

Составная столбчатая диаграмма

27%

Сгруппированная столбчатая диаграмма

12%

Скрипичный график

4%

Другое

13%

Ничего

Большинство специалистов используют простые и понятные графики для анализа и представления данных, причем независимо от конкретной сферы работы: при сборе и разведочном анализе данных используются те же типы диаграмм, что и в управлении данными и ML Ops.

Data Science:

2022

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.