Data Science

Поделиться:

На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и специалисты по анализу данных.

Какое место в вашей работе занимают Data Science, анализ данных и машинное обучение?

Анализ данныхData ScienceМашинное обучение
19%17%16%Это моя основная профессиональная деятельность
36%31%23%Это вспомогательная профессиональная деятельность
14%16%18%Занимаюсь этим в образовательных целях
18%20%24%Это просто хобби
12%16%19%Не занимаюсь Data Science
12%36%

Значительная часть опрошенных совмещает анализ данных с другой работой. Это свидетельствует о том, что в сфере Data Science происходит демократизация и открываются новые возможности на рынке труда.

Есть ли в вашей команде отдельная должность специалиста по машинному обучению?

PyCharm

Универсальная IDE для работы с данными, прототипирования и развертывания моделей машинного обучения с отличной поддержкой Python, Jupyter-ноутбуков, библиотек для научных вычислений, Anaconda, а также баз данных SQL и NoSQL.

Какие типы данных вы анализируете?

33%

Данные транзакций

30%

Данные временных рядов

27%

Фотографии или изображения

26%

Машинные данные

23%

Веб-страницы

20%

Данные о посещениях сайтов

18%

Взаимодействие с клиентами

Чем вы занимаетесь?

46%

Визуализация данных

43%

Сбор/извлечение данных

33%

Разведочный анализ данных

31%

Проектирование моделей машинного обучения

31%

Пайплайны данных

23%

Осуществление машинного обучения

21%

Архитектура хранилищ

Какие диаграммы вы чаще всего используете для визуализации данных?

64%

Линейный график

58%

Столбчатая диаграмма

57%

Диаграмма рассеяния

54%

Гистограмма

33%

Составная столбчатая диаграмма

31%

Сгруппированная столбчатая диаграмма

13%

Скрипичный график

4%

Другое

10%

Никакие

Большинство специалистов предпочитают использовать для исследования и представления данных проверенные временем графики. Этот способ визуализации широко используется в задачах, связанных со сбором и разведочным анализом данных, управлением данными и ML Ops.

Datalore

Datalore от JetBrains — это платформа для совместной работы над данными прямо в браузере. Ноутбуки Datalore совместимы с Jupyter и предлагают умные возможности редактирования кода на Python, SQL, R и Scala, а также визуализацию, не требующую написания кода. Конструктор отчетов Datalore позволяет командам превратить ноутбук в наглядное повествование, основанное на данных. С помощью Datalore можно делиться ноутбуками, редактировать их в реальном времени и организовывать проекты в рабочих пространствах.

Есть ли в вашей команде отдельная должность дата-инженера?

Почти в половине команд есть отдельная должность дата-инженера или инженера по машинному обучению.

Как вы получили образование в сфере Data Science, машинного обучения или инжиниринга данных?

56%

Изучал(а) самостоятельно

41%

Изучал(а) программирование или анализ данных в университете

36%

Закончил(а) онлайн-курсы

19%

Перешел(-а) из разработчиков

4%

Другое

Такие узкоспециальные должности, как дата-сайентист, дата-инженер и инженер по машинному обучению появились на рынке труда относительно недавно. Многие приходят в эти профессии из смежных областей, что требует приобретения новых навыков путем самообразования или онлайн-обучения.

Сколько человек в вашей команде по анализу данных?

20%

1–2

15%

3

11%

4

9%

5

16%

6–7

12%

8–10

7%

11–15

11%

Более 15

Больше 50% тех, кто имеет дело с данными, работают в командах, состоящих не менее чем из пяти человек.

Какие IDE или редакторы вы используете для Data Science или анализа данных?

40%

Visual Studio Code

35%

Jupyter-ноутбуки

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

Какую часть рабочего времени вы проводите за работой с ноутбуками?

48%

10–20%

23%

20–40%

20%

Более 40%

10%

Не пользуюсь ноутбуками

Для чего вы используете ноутбуки?

71%

Разведочный анализ данных

66%

Эксперименты с данными / запросы к данным

65%

Визуализация

43%

Прототипирование моделей

9%

Оркестрация

1%

Другое

Управляете ли вы версиями ноутбуков?

Какие системы контроля версий вы используете?

57%

Git

57%

GitHub

23%

GitLab

20%

Создаю версии в редакторе кода или IDE

12%

Создаю несколько копий ноутбуков

2%

Другое

Хотя большинство специалистов по анализу данных не используют версионирование ноутбуков, значительная часть (41%) все же делает это, и большинство из них предпочитают Git или GitHub.

Какие инструменты вы используете для подготовки отчетов и визуализации результатов?

39%

PowerPoint, Google Презентации или аналогичные

37%

Показываю ноутбук

36%

Редактор электронных таблиц

25%

MS Word, Google Документы или аналогичные

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

Другое

В мире Data Science широко распространены различные реализации Jupyter-ноутбуков: их часто используют для разведочного анализа, запроса данных и экспериментирования над ними, а также для прототипирования моделей. Примерно 40% специалистов используют Jupyter-ноутбуки для представления результатов, но, что интересно, многие из них (почти 50%) посвящают работе с ноутбуками лишь 10–20% своего времени.

Какие виды вычислительных ресурсов вы используете для задач Data Science?

57%

Локальные ресурсы

28%

Локальные серверы компании

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

Другое

15%

Никакие

Большинство респондентов полагаются на локальные ресурсы.

С какими типами источников данных вы работаете?

67%

64%

Локальные файлы

52%

62%

Базы данных SQL

24%

23%

​​Amazon S3

19%

15%

Большие данные

14%

15%

Файловое хранилище Google

8%

9%

Файловое хранилище Azure

5%

4%

Другое

Хотя большинство опрошенных работают с локальными файлами, доля тех, кто использует SQL-базы данных, за год выросла на 10 процентных пунктов, что говорит о важности SQL в сфере анализа данных.

С какими типами данных вы чаще всего работаете?

Используете ли вы в работе синтетические данные?

Большинство опрошенных занимаются обработкой специально собранных данных, причем чаще всего они имеют дело с транзакционными данными, временными рядами, изображениями и машинными данными. Интересно, что 30% работают с синтетическими данными, то есть данными, созданными искусственно, а не собранными в реальных условиях.

Вы обучаете модели машинного или глубокого обучения?

Обучением моделей машинного или глубокого обучения занимаются около 40% всех респондентов. Однако среди тех, кто считает работу с данными своей основной деятельностью, этот показатель возрастает до более чем 60%. Эта тенденция означает, что предиктивное моделирование становится центральным аспектом работы с данными.

Как часто вы переобучаете или обновляете модели машинного обучения?

27%

Чаще одного раза в месяц

23%

Ежемесячно

18%

Каждые три месяца

7%

Два раза в год

7%

Раз в год

18%

Никогда

Сколько времени в месяц вы тратите на обучение моделей?

27%

От 0 до 5 часов

36%

От 5 до 20 часов

23%

От 20 до 50 часов

8%

От 50 до 100 часов

6%

Более 100 часов

Половина специалистов по анализу данных переобучают или обновляют свои модели как минимум раз в месяц, однако большинство тратят на это не больше 20 часов ежемесячно.

Используете ли вы ГП для обучения моделей?

Большинство профессионалов в области анализа данных (81%) используют графические процессоры для обучения моделей. Эффективное использование графических процессоров позволяет ускорить обучение и тем самым повысить производительность моделей, что делает GPU все более привлекательными для исследователей и аналитиков. Это также подчеркивает важность и актуальность технологических инноваций в машинном обучении.

Какой объем VRAM вам обычно требуется для задач по машинному обучению?

28%

22%

8 ГБ

33%

29%

16 ГБ

23%

22%

32 ГБ

10%

14%

64 ГБ

5%

6%

128 ГБ

8%

Более 128 ГБ

Рост вычислительных мощностей — очевидный тренд в машинном обучении. Почти 80% специалистов по анализу данных теперь используют от 16 ГБ видеопамяти, а доля тех, кому хватает 8 ГБ, за год сократилась на шесть процентных пунктов.

Какие методы и алгоритмы вы используете?

47%

Линейная или логистическая регрессия

47%

Нейронные сети

38%

Деревья решений или алгоритмы случайного леса

36%

Методы кластеризации

30%

Методы обработки естественного языка

25%

Байесовские методы

24%

Сети-трансформеры

Основные алгоритмы машинного обучения, такие как регрессия и методы на основе деревьев не сдают позиций, однако многие специалисты по анализу данных также используют нейронные сети. Растущая популярность и удобство сетей-трансформеров могут объяснить, почему 30% опрошенных занимаются работой в области обработки естественного языка (Natural Language Processing, NLP). Интересно, что лишь 24% респондентов отметили применение статистического тестирования в своей работе. Это говорит о том, что машинное и глубокое обучение приобретают все большее значение как фундаментальные навыки в области анализа данных, вытесняя классическую статистику.

Какие решения корпоративного класса для машинного обучения вы используете?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Самыми популярными корпоративными облачными решениями стали сервисы Amazon. Примечательно, что по сравнению с прошлым годом значительно (более чем на 10 процентных пунктов) увеличилось использование корпоративных решений для машинного обучения.

Какие фреймворки машинного обучения вы используете?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow немного опережает scikit-learn и PyTorch, а Keras и XGBoost демонстрируют уверенный рост популярности. Интересно, что значительная часть респондентов (19%) сообщили, что не используют какой-либо конкретный фреймворк.

Какие инструменты вы используете для отслеживания результатов обучения моделей?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

Другое

66%

Никакие

Наиболее часто используемым инструментом является TensorBoard, доля которого составляет 23%, за ним следуют MLFlow (10%) и WandB (7%). При этом две трети специалистов не используют никаких специальных инструментов для отслеживания экспериментов по обучению моделей.

Что из перечисленного лучше всего описывает применение машинного обучения в вашей организации?

47%

Для использования возможностей на основе ИИ в продуктах и услугах

30%

Для помощи в проектировании и разработке новых продуктов

28%

Как основа производственных приложений

28%

Мы продолжаем изучать и тестировать возможные варианты использования

25%

Для улучшенного анализа корпоративных данных

22%

Для снижения бизнес-затрат

21%

Для поддержки других аспектов бизнеса

Машинное обучение и искусственный интеллект стали важнейшими компонентами повседневной деловой жизни, поэтому не удивительно, что почти половина наших респондентов использует различные функции на основе искусственного интеллекта, встроенные в привычное программное обеспечение.

Какие облачные решения корпоративного класса вы используете?

30%

Amazon EC2

18%

AWS Lambda

17%

Облачные службы Azure

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Облачные функции Google

8%

Google Cloud Run

Какие из перечисленных видов деятельности являются наиболее сложными для вас или вашей организации?

47%

Качество данных

29%

Обеспечение безопасности данных и управление ими

28%

Подготовка и преобразование данных

28%

Анализ данных

23%

Создание и сбор данных

22%

Интеграция данных

20%

Миграция данных

Сколько времени в среднем тратит ваша команда на управление данными, их очистку и разметку?

Какие инструменты вы используете для очистки данных?

47%

IDE

27%

Облачные платформы

27%

Электронные таблицы

3%

Специальные инструменты, например OpenRefine

5%

Другое

29%

Не занимаюсь очисткой данных

Качество данных — типичная проблема для специалистов и организаций, имеющих дело с данными: около 50% опрошенных тратят на подготовку данных не менее 30% времени. Исследование Anaconda также подтверждает, что очистка данных становится наиболее трудоемким аспектом рабочего процесса для специалистов по обработке данных. Почти половина респондентов для подобных задач предпочитает использовать IDE.

Data Science:

2023

Спасибо, что уделили время!

Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.

Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.