Data Science

Поделиться:

На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и специалисты по анализу данных.

Какое место в вашей работе занимает Data Science, анализ и инжиниринг данных или машинное обучение?

Многие респонденты сочетают задачи в области Data Science с другой работой. Результаты говорят о том, что эта сфера становится более открытой, поэтому имеет потенциал рыночного роста.

Чем вы занимаетесь?

Компания JetBrains разработала Datalore — платформу для совместной работы с данными. Она предоставляет не только помощь в программировании, но и автоматические функции анализа и визуализации данных, не требующие написания кода. Благодаря этому даже пользователи без технической подготовки могут при необходимости подготовить отчет или визуализацию данных с помощью того же инструмента, что и команда дата-специалистов.

Как вы получили образование в сфере Data Science, машинного обучения или инжиниринга данных?

Самостоятельные должности для специалистов по анализу и инжинирингу данных, а также машинному обучению появились относительно недавно. Многие респонденты перешли на эту работу, получив опыт или пройдя обучение в смежных сферах, поэтому им было необходимо повышать квалификацию путем самообразования или онлайн-обучения. Исторически в Data Science и машинное обучение чаще всего приходили обладатели магистерских степеней в STEM-дисциплинах, но мы наблюдаем, что за семь лет в этих областях становилось все больше бакалавров: в 2015 году их было 20%, а в 2021-м — уже 31%. Количество выпускников бакалавриата, специализирующихся на анализе данных, постоянно растет, и мы, вероятно, увидим, как изменятся результаты в пользу людей, получивших образование по специальностям, напрямую связанным с Data Science.

Какие IDE или редакторы вы используете для Data Science или анализа данных?

Среди редакторов для Data Science и анализа данных первое место занимают Jupyter-ноутбуки: ими пользуются около 40% респондентов. Среди тех, кто занимается сбором, визуализацией и разведочным анализом данных, а также моделированием машинного обучения, доля Jupyter-ноутбуков еще выше — 70%.

Подробнее об этом можно узнать из нашего недавнего исследования. Мы выяснили, что с 2019 по 2020 год количество ноутбуков для Python 3 увеличилось на 87%, а количество ноутбуков для Python 2 снизилось на 12%.

Какую часть рабочего времени вы проводите за работой с ноутбуками?

Для чего вы используете ноутбуки?

Jupyter-ноутбуки остаются одним из самых популярных инструментов: ими пользуются 42% респондентов, а среди тех, для кого работа с данными — основное занятие, более 50%. Ноутбуки используются в первую очередь для исследовательской работы, например разведочного анализа данных и прототипирования моделей. Однако даже среди тех, для кого анализ данных является основной работой, лишь меньшинство использует ноутбуки более 40% рабочего времени.

Управляете ли вы версиями ноутбуков?

Какие системы контроля версий вы используете?

Доля респондентов, использующих системы контроля версий для ноутбуков, весьма значительна. Это хороший признак: значит, много кто рассматривает ноутбуки как код, требующий обслуживания. Чаще всего для этого используют Git и GitHub.

Управлять версиями Jupyter-ноутбуков с помощью интерфейса командной строки (CLI) бывает сложно. К счастью, DataSpell предлагает широкий набор функций работы с Git: удобный интерфейс позволит выполнить основные действия, например настроить репозиторий, добавить ноутбуки и сохранить версии, посмотреть различия между коммитами, даже если вы не помните ни одной Git-команды. Подробнее об использовании Git с Jupyter-ноутбуками в DataSpell читайте в этой статье.

С какими типами источников данных вы работаете?

Базы данных SQL остаются самым распространенным источником данных для специалистов по анализу данных, не считая локальных файлов.

Какие инструменты вы используете для подготовки отчетов и визуализации результатов?

Datalore позволяет в считанные секунды превратить Jupyter-ноутбук в информационное приложение. Достаточно отсортировать ячейки в рабочей зоне, опубликовать отчет в статическом или интерактивном режиме — и можно делиться ссылкой.

Пример отчета

Какие методы и алгоритмы вы используете?

Респонденты по-прежнему широко используют такие основные алгоритмы машинного обучения, как регрессионные и древовидные методы. При этом большинство использует также нейронные сети, в первую очередь архитектуры Transformer. Работать с трансформер-сетями становится проще, их популярность растет, и это объясняет, почему больше четверти опрошенных заявили, что работают в области NLP. Интересно, что только пятая часть респондентов используют в работе статистическое тестирование: вероятно, за классические статистические методы теперь отвечают технологии машинного и глубокого обучения.

Какие фреймворки машинного обучения вы используете?

В целом самый распространенный фреймворк глубокого обучения — TensorFlow. А среди тех, для кого работа с данными является основным занятием, он делит первое место с PyTorch. Самой популярной библиотекой машинного обучения стала Scikit-learn, при этом заметные доли опрошенных используют специальные пакеты и фреймворки древовидного моделирования, такие как XGBoost и LightGBM.

Какие решения корпоративного класса для машинного обучения вы используете?

Самые популярные облачные решения такого класса — службы Amazon.

Сколько человек в вашей команде по анализу данных?

Большинство респондентов — 70% — работают в небольших группах (не более 10 человек). Каждый пятый входит в команду, насчитывающую более 15 специалистов.

Есть ли в вашей команде отдельная должность дата-инженера?

Самостоятельная должность дата-инженера есть почти в половине команд.

Есть ли в вашей команде отдельная должность специалиста по машинному обучению?

Чуть больше 50% респондентов заявили, что в их командах есть отдельные должности дата-инженеров или специалистов по машинному обучению. И «дата-инженер», и «специалист по машинному обучению» — довольно широкие понятия, поэтому должностные обязанности в разных компаниях могут сильно отличаться. Вполне вероятно, что эти специалисты решают схожие задачи по машинному обучению, например занимаются разработкой моделей и управлением конвейером данных. Логично, что, чем больше команда, тем вероятнее, что в ней будет отдельный специалист, занимающий одну из этих должностей. Более 80% респондентов, работающих в командах по 1–2 человека, сказали, что у них нет ни дата-инженера, ни специалиста по машинному обучению. В то же время 79% тех, кто работает в командах от 15 человек, ответили, что у них есть отдельная должность дата-инженера, а 65% — что у них есть отдельный специалист по машинному обучению.

Вы обучаете модели машинного или глубокого обучения?

Чуть меньше половины респондентов обучают модели машинного или глубокого обучения. Среди тех, кто назвал работу с данными своим основным занятием, таким обучением занимаются 60%. Таким образом, создание прогностических моделей становится ключевым элементом работы с данными.

Используете ли вы ГП для обучения моделей?

Какой объем VRAM вам обычно требуется для задач по машинному обучению?

Большинство респондентов используют графические процессоры для обучения моделей машинного или глубокого обучения. Что касается необходимого объема VRAM, он отличается в зависимости от того, какое отношение респонденты имеют к работе с данными. 8 ГБ хватает 40 процентам респондентов, для которых это хобби или часть обучения, но только 18 процентам тех, для кого это основная работа.

Сколько времени в месяц вы тратите на обучение моделей?

Большинство респондентов тратят на обучение моделей до 20 часов в неделю, но сюда может входить время, в течение которого процессы обучения запущены по ночам. Почти треть тратит на обучение моделей до 5 часов в неделю. Это соответствует полученным ранее результатам, которые показывают, что обучение моделей — это лишь небольшая часть работы специалистов по Data Science, а основное время занимает подготовка и анализ данных.

Какие виды вычислительных ресурсов вы используете для задач Data Science?

Большинство респондентов используют для задач Data Science локальные ресурсы, что вполне согласуется с результатами опроса в целом: основная работа в ноутбуках — это исследование и визуализация данных, при этом большинство работает с локальными файлами. Интересно, что ответы не очень отличаются в зависимости от того, какое отношение респонденты имеют к работе с данными: и те, для кого это основное занятие, и те, для кого это хобби или часть обучения, с равной вероятностью используют локальные ресурсы.

Какие специальные инструменты вы используете для отслеживания результатов обучения моделей?

Большинство опрошенных заявили, что не используют никакие инструменты для отслеживания эффективности обучения моделей. Чаще такими инструментами пользуются в командах, насчитывающих 15 и более человек (58% респондентов из таких команд ответили, что используют по крайней мере один инструмент), там, где есть отдельный специалист по машинному обучению (62%), или если респонденты занимаются разработкой и внедрением моделей машинного обучения (63%). Это указывает на то, что подобные инструменты, как правило, используются в среде, где есть носители специальных знаний, относящихся к разработке моделей машинного обучения.

Какие диаграммы вы чаще всего используете для визуализации данных?

Большинство специалистов используют простые и понятные графики для анализа и представления данных, причем независимо от конкретной сферы работы: при сборе и разведочном анализе данных используются те же типы диаграмм, что и в управлении данными и ML Ops.

Data Science:

2022

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.