Data Science
Поделиться:
На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и специалисты по анализу данных.
Многие респонденты сочетают задачи в области Data Science с другой работой. Результаты говорят о том, что эта сфера становится более открытой, поэтому имеет потенциал рыночного роста.
Компания JetBrains разработала Datalore — платформу для совместной работы с данными. Она предоставляет не только помощь в программировании, но и автоматические функции анализа и визуализации данных, не требующие написания кода. Благодаря этому даже пользователи без технической подготовки могут при необходимости подготовить отчет или визуализацию данных с помощью того же инструмента, что и команда дата-специалистов.
Самостоятельные должности для специалистов по анализу и инжинирингу данных, а также машинному обучению появились относительно недавно. Многие респонденты перешли на эту работу, получив опыт или пройдя обучение в смежных сферах, поэтому им было необходимо повышать квалификацию путем самообразования или онлайн-обучения. Исторически в Data Science и машинное обучение чаще всего приходили обладатели магистерских степеней в STEM-дисциплинах, но мы наблюдаем, что за семь лет в этих областях становилось все больше бакалавров: в 2015 году их было 20%, а в 2021-м — уже 31%. Количество выпускников бакалавриата, специализирующихся на анализе данных, постоянно растет, и мы, вероятно, увидим, как изменятся результаты в пользу людей, получивших образование по специальностям, напрямую связанным с Data Science.
Среди редакторов для Data Science и анализа данных первое место занимают Jupyter-ноутбуки: ими пользуются около 40% респондентов. Среди тех, кто занимается сбором, визуализацией и разведочным анализом данных, а также моделированием машинного обучения, доля Jupyter-ноутбуков еще выше — 70%.
Подробнее об этом можно узнать из нашего недавнего исследования. Мы выяснили, что с 2019 по 2020 год количество ноутбуков для Python 3 увеличилось на 87%, а количество ноутбуков для Python 2 снизилось на 12%.
Jupyter-ноутбуки остаются одним из самых популярных инструментов: ими пользуются 42% респондентов, а среди тех, для кого работа с данными — основное занятие, более 50%. Ноутбуки используются в первую очередь для исследовательской работы, например разведочного анализа данных и прототипирования моделей. Однако даже среди тех, для кого анализ данных является основной работой, лишь меньшинство использует ноутбуки более 40% рабочего времени.
Доля респондентов, использующих системы контроля версий для ноутбуков, весьма значительна. Это хороший признак: значит, много кто рассматривает ноутбуки как код, требующий обслуживания. Чаще всего для этого используют Git и GitHub.
Управлять версиями Jupyter-ноутбуков с помощью интерфейса командной строки (CLI) бывает сложно. К счастью, DataSpell предлагает широкий набор функций работы с Git: удобный интерфейс позволит выполнить основные действия, например настроить репозиторий, добавить ноутбуки и сохранить версии, посмотреть различия между коммитами, даже если вы не помните ни одной Git-команды. Подробнее об использовании Git с Jupyter-ноутбуками в DataSpell читайте в этой статье.
Базы данных SQL остаются самым распространенным источником данных для специалистов по анализу данных, не считая локальных файлов.
Datalore позволяет в считанные секунды превратить Jupyter-ноутбук в информационное приложение. Достаточно отсортировать ячейки в рабочей зоне, опубликовать отчет в статическом или интерактивном режиме — и можно делиться ссылкой.
Пример отчетаРеспонденты по-прежнему широко используют такие основные алгоритмы машинного обучения, как регрессионные и древовидные методы. При этом большинство использует также нейронные сети, в первую очередь архитектуры Transformer. Работать с трансформер-сетями становится проще, их популярность растет, и это объясняет, почему больше четверти опрошенных заявили, что работают в области NLP. Интересно, что только пятая часть респондентов используют в работе статистическое тестирование: вероятно, за классические статистические методы теперь отвечают технологии машинного и глубокого обучения.
В целом самый распространенный фреймворк глубокого обучения — TensorFlow. А среди тех, для кого работа с данными является основным занятием, он делит первое место с PyTorch. Самой популярной библиотекой машинного обучения стала Scikit-learn, при этом заметные доли опрошенных используют специальные пакеты и фреймворки древовидного моделирования, такие как XGBoost и LightGBM.
Самые популярные облачные решения такого класса — службы Amazon.
Большинство респондентов — 70% — работают в небольших группах (не более 10 человек). Каждый пятый входит в команду, насчитывающую более 15 специалистов.
Самостоятельная должность дата-инженера есть почти в половине команд.
Чуть больше 50% респондентов заявили, что в их командах есть отдельные должности дата-инженеров или специалистов по машинному обучению. И «дата-инженер», и «специалист по машинному обучению» — довольно широкие понятия, поэтому должностные обязанности в разных компаниях могут сильно отличаться. Вполне вероятно, что эти специалисты решают схожие задачи по машинному обучению, например занимаются разработкой моделей и управлением конвейером данных. Логично, что, чем больше команда, тем вероятнее, что в ней будет отдельный специалист, занимающий одну из этих должностей. Более 80% респондентов, работающих в командах по 1–2 человека, сказали, что у них нет ни дата-инженера, ни специалиста по машинному обучению. В то же время 79% тех, кто работает в командах от 15 человек, ответили, что у них есть отдельная должность дата-инженера, а 65% — что у них есть отдельный специалист по машинному обучению.
Чуть меньше половины респондентов обучают модели машинного или глубокого обучения. Среди тех, кто назвал работу с данными своим основным занятием, таким обучением занимаются 60%. Таким образом, создание прогностических моделей становится ключевым элементом работы с данными.
Большинство респондентов используют графические процессоры для обучения моделей машинного или глубокого обучения. Что касается необходимого объема VRAM, он отличается в зависимости от того, какое отношение респонденты имеют к работе с данными. 8 ГБ хватает 40 процентам респондентов, для которых это хобби или часть обучения, но только 18 процентам тех, для кого это основная работа.
Большинство респондентов тратят на обучение моделей до 20 часов в неделю, но сюда может входить время, в течение которого процессы обучения запущены по ночам. Почти треть тратит на обучение моделей до 5 часов в неделю. Это соответствует полученным ранее результатам, которые показывают, что обучение моделей — это лишь небольшая часть работы специалистов по Data Science, а основное время занимает подготовка и анализ данных.
Большинство респондентов используют для задач Data Science локальные ресурсы, что вполне согласуется с результатами опроса в целом: основная работа в ноутбуках — это исследование и визуализация данных, при этом большинство работает с локальными файлами. Интересно, что ответы не очень отличаются в зависимости от того, какое отношение респонденты имеют к работе с данными: и те, для кого это основное занятие, и те, для кого это хобби или часть обучения, с равной вероятностью используют локальные ресурсы.
Большинство опрошенных заявили, что не используют никакие инструменты для отслеживания эффективности обучения моделей. Чаще такими инструментами пользуются в командах, насчитывающих 15 и более человек (58% респондентов из таких команд ответили, что используют по крайней мере один инструмент), там, где есть отдельный специалист по машинному обучению (62%), или если респонденты занимаются разработкой и внедрением моделей машинного обучения (63%). Это указывает на то, что подобные инструменты, как правило, используются в среде, где есть носители специальных знаний, относящихся к разработке моделей машинного обучения.
Большинство специалистов используют простые и понятные графики для анализа и представления данных, причем независимо от конкретной сферы работы: при сборе и разведочном анализе данных используются те же типы диаграмм, что и в управлении данными и ML Ops.
Спасибо, что уделили время!
Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.
Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.