Data Science

Поделиться:

На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и специалисты по анализу данных.

Какое место в вашей работе занимают Data Science, анализ данных и машинное обучение?

Значительная часть опрошенных совмещает анализ данных с другой работой. Это свидетельствует о том, что в сфере Data Science происходит демократизация и открываются новые возможности на рынке труда.

Есть ли в вашей команде отдельная должность специалиста по машинному обучению?

PyCharm

Универсальная IDE для работы с данными, прототипирования и развертывания моделей машинного обучения с отличной поддержкой Python, Jupyter-ноутбуков, библиотек для научных вычислений, Anaconda, а также баз данных SQL и NoSQL.

Какие типы данных вы анализируете?

Чем вы занимаетесь?

Какие диаграммы вы чаще всего используете для визуализации данных?

Большинство специалистов предпочитают использовать для исследования и представления данных проверенные временем графики. Этот способ визуализации широко используется в задачах, связанных со сбором и разведочным анализом данных, управлением данными и ML Ops.

Datalore

Datalore от JetBrains — это платформа для совместной работы над данными прямо в браузере. Ноутбуки Datalore совместимы с Jupyter и предлагают умные возможности редактирования кода на Python, SQL, R и Scala, а также визуализацию, не требующую написания кода. Конструктор отчетов Datalore позволяет командам превратить ноутбук в наглядное повествование, основанное на данных. С помощью Datalore можно делиться ноутбуками, редактировать их в реальном времени и организовывать проекты в рабочих пространствах.

Есть ли в вашей команде отдельная должность дата-инженера?

Почти в половине команд есть отдельная должность дата-инженера или инженера по машинному обучению.

Как вы получили образование в сфере Data Science, машинного обучения или инжиниринга данных?

Такие узкоспециальные должности, как дата-сайентист, дата-инженер и инженер по машинному обучению появились на рынке труда относительно недавно. Многие приходят в эти профессии из смежных областей, что требует приобретения новых навыков путем самообразования или онлайн-обучения.

Сколько человек в вашей команде по анализу данных?

Больше 50% тех, кто имеет дело с данными, работают в командах, состоящих не менее чем из пяти человек.

Какие IDE или редакторы вы используете для Data Science или анализа данных?

Какую часть рабочего времени вы проводите за работой с ноутбуками?

Для чего вы используете ноутбуки?

Управляете ли вы версиями ноутбуков?

Какие системы контроля версий вы используете?

Хотя большинство специалистов по анализу данных не используют версионирование ноутбуков, значительная часть (41%) все же делает это, и большинство из них предпочитают Git или GitHub.

Какие инструменты вы используете для подготовки отчетов и визуализации результатов?

В мире Data Science широко распространены различные реализации Jupyter-ноутбуков: их часто используют для разведочного анализа, запроса данных и экспериментирования над ними, а также для прототипирования моделей. Примерно 40% специалистов используют Jupyter-ноутбуки для представления результатов, но, что интересно, многие из них (почти 50%) посвящают работе с ноутбуками лишь 10–20% своего времени.

Какие виды вычислительных ресурсов вы используете для задач Data Science?

Большинство респондентов полагаются на локальные ресурсы.

С какими типами источников данных вы работаете?

Хотя большинство опрошенных работают с локальными файлами, доля тех, кто использует SQL-базы данных, за год выросла на 10 процентных пунктов, что говорит о важности SQL в сфере анализа данных.

С какими типами данных вы чаще всего работаете?

Используете ли вы в работе синтетические данные?

Большинство опрошенных занимаются обработкой специально собранных данных, причем чаще всего они имеют дело с транзакционными данными, временными рядами, изображениями и машинными данными. Интересно, что 30% работают с синтетическими данными, то есть данными, созданными искусственно, а не собранными в реальных условиях.

Вы обучаете модели машинного или глубокого обучения?

Обучением моделей машинного или глубокого обучения занимаются около 40% всех респондентов. Однако среди тех, кто считает работу с данными своей основной деятельностью, этот показатель возрастает до более чем 60%. Эта тенденция означает, что предиктивное моделирование становится центральным аспектом работы с данными.

Как часто вы переобучаете или обновляете модели машинного обучения?

Сколько времени в месяц вы тратите на обучение моделей?

Половина специалистов по анализу данных переобучают или обновляют свои модели как минимум раз в месяц, однако большинство тратят на это не больше 20 часов ежемесячно.

Используете ли вы ГП для обучения моделей?

Большинство профессионалов в области анализа данных (81%) используют графические процессоры для обучения моделей. Эффективное использование графических процессоров позволяет ускорить обучение и тем самым повысить производительность моделей, что делает GPU все более привлекательными для исследователей и аналитиков. Это также подчеркивает важность и актуальность технологических инноваций в машинном обучении.

Какой объем VRAM вам обычно требуется для задач по машинному обучению?

Рост вычислительных мощностей — очевидный тренд в машинном обучении. Почти 80% специалистов по анализу данных теперь используют от 16 ГБ видеопамяти, а доля тех, кому хватает 8 ГБ, за год сократилась на шесть процентных пунктов.

Какие методы и алгоритмы вы используете?

Основные алгоритмы машинного обучения, такие как регрессия и методы на основе деревьев не сдают позиций, однако многие специалисты по анализу данных также используют нейронные сети. Растущая популярность и удобство сетей-трансформеров могут объяснить, почему 30% опрошенных занимаются работой в области обработки естественного языка (Natural Language Processing, NLP). Интересно, что лишь 24% респондентов отметили применение статистического тестирования в своей работе. Это говорит о том, что машинное и глубокое обучение приобретают все большее значение как фундаментальные навыки в области анализа данных, вытесняя классическую статистику.

Какие решения корпоративного класса для машинного обучения вы используете?

Самыми популярными корпоративными облачными решениями стали сервисы Amazon. Примечательно, что по сравнению с прошлым годом значительно (более чем на 10 процентных пунктов) увеличилось использование корпоративных решений для машинного обучения.

Какие фреймворки машинного обучения вы используете?

TensorFlow немного опережает scikit-learn и PyTorch, а Keras и XGBoost демонстрируют уверенный рост популярности. Интересно, что значительная часть респондентов (19%) сообщили, что не используют какой-либо конкретный фреймворк.

Какие инструменты вы используете для отслеживания результатов обучения моделей?

Наиболее часто используемым инструментом является TensorBoard, доля которого составляет 23%, за ним следуют MLFlow (10%) и WandB (7%). При этом две трети специалистов не используют никаких специальных инструментов для отслеживания экспериментов по обучению моделей.

Что из перечисленного лучше всего описывает применение машинного обучения в вашей организации?

Машинное обучение и искусственный интеллект стали важнейшими компонентами повседневной деловой жизни, поэтому не удивительно, что почти половина наших респондентов использует различные функции на основе искусственного интеллекта, встроенные в привычное программное обеспечение.

Какие облачные решения корпоративного класса вы используете?

Какие из перечисленных видов деятельности являются наиболее сложными для вас или вашей организации?

Сколько времени в среднем тратит ваша команда на управление данными, их очистку и разметку?

Какие инструменты вы используете для очистки данных?

Качество данных — типичная проблема для специалистов и организаций, имеющих дело с данными: около 50% опрошенных тратят на подготовку данных не менее 30% времени. Исследование Anaconda также подтверждает, что очистка данных становится наиболее трудоемким аспектом рабочего процесса для специалистов по обработке данных. Почти половина респондентов для подобных задач предпочитает использовать IDE.

Data Science:

2023

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.