Data Science
Поделиться:
На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и специалисты по анализу данных.
Анализ данных | Data Science | Машинное обучение | |
---|---|---|---|
19% | 17% | 16% | Это моя основная профессиональная деятельность |
36% | 31% | 23% | Это вспомогательная профессиональная деятельность |
14% | 16% | 18% | Занимаюсь этим в образовательных целях |
18% | 20% | 24% | Это просто хобби |
12% | 16% | 19% | Не занимаюсь Data Science |
Значительная часть опрошенных совмещает анализ данных с другой работой. Это свидетельствует о том, что в сфере Data Science происходит демократизация и открываются новые возможности на рынке труда.
PyCharm
Универсальная IDE для работы с данными, прототипирования и развертывания моделей машинного обучения с отличной поддержкой Python, Jupyter-ноутбуков, библиотек для научных вычислений, Anaconda, а также баз данных SQL и NoSQL.
Большинство специалистов предпочитают использовать для исследования и представления данных проверенные временем графики. Этот способ визуализации широко используется в задачах, связанных со сбором и разведочным анализом данных, управлением данными и ML Ops.
Datalore
Datalore от JetBrains — это платформа для совместной работы над данными прямо в браузере. Ноутбуки Datalore совместимы с Jupyter и предлагают умные возможности редактирования кода на Python, SQL, R и Scala, а также визуализацию, не требующую написания кода. Конструктор отчетов Datalore позволяет командам превратить ноутбук в наглядное повествование, основанное на данных. С помощью Datalore можно делиться ноутбуками, редактировать их в реальном времени и организовывать проекты в рабочих пространствах.
Почти в половине команд есть отдельная должность дата-инженера или инженера по машинному обучению.
Изучал(а) самостоятельно
Изучал(а) программирование или анализ данных в университете
Закончил(а) онлайн-курсы
Перешел(-а) из разработчиков
Другое
Такие узкоспециальные должности, как дата-сайентист, дата-инженер и инженер по машинному обучению появились на рынке труда относительно недавно. Многие приходят в эти профессии из смежных областей, что требует приобретения новых навыков путем самообразования или онлайн-обучения.
10–20%
20–40%
Более 40%
Не пользуюсь ноутбуками
Git
GitHub
GitLab
Создаю версии в редакторе кода или IDE
Создаю несколько копий ноутбуков
Другое
Хотя большинство специалистов по анализу данных не используют версионирование ноутбуков, значительная часть (41%) все же делает это, и большинство из них предпочитают Git или GitHub.
В мире Data Science широко распространены различные реализации Jupyter-ноутбуков: их часто используют для разведочного анализа, запроса данных и экспериментирования над ними, а также для прототипирования моделей. Примерно 40% специалистов используют Jupyter-ноутбуки для представления результатов, но, что интересно, многие из них (почти 50%) посвящают работе с ноутбуками лишь 10–20% своего времени.
67%
64%
Локальные файлы
52%
62%
Базы данных SQL
24%
23%
Amazon S3
19%
15%
Большие данные
14%
15%
Файловое хранилище Google
8%
9%
Файловое хранилище Azure
5%
4%
Другое
Хотя большинство опрошенных работают с локальными файлами, доля тех, кто использует SQL-базы данных, за год выросла на 10 процентных пунктов, что говорит о важности SQL в сфере анализа данных.
Большинство опрошенных занимаются обработкой специально собранных данных, причем чаще всего они имеют дело с транзакционными данными, временными рядами, изображениями и машинными данными. Интересно, что 30% работают с синтетическими данными, то есть данными, созданными искусственно, а не собранными в реальных условиях.
Обучением моделей машинного или глубокого обучения занимаются около 40% всех респондентов. Однако среди тех, кто считает работу с данными своей основной деятельностью, этот показатель возрастает до более чем 60%. Эта тенденция означает, что предиктивное моделирование становится центральным аспектом работы с данными.
Половина специалистов по анализу данных переобучают или обновляют свои модели как минимум раз в месяц, однако большинство тратят на это не больше 20 часов ежемесячно.
Большинство профессионалов в области анализа данных (81%) используют графические процессоры для обучения моделей. Эффективное использование графических процессоров позволяет ускорить обучение и тем самым повысить производительность моделей, что делает GPU все более привлекательными для исследователей и аналитиков. Это также подчеркивает важность и актуальность технологических инноваций в машинном обучении.
28%
22%
8 ГБ
33%
29%
16 ГБ
23%
22%
32 ГБ
10%
14%
64 ГБ
5%
6%
128 ГБ
–
8%
Более 128 ГБ
Рост вычислительных мощностей — очевидный тренд в машинном обучении. Почти 80% специалистов по анализу данных теперь используют от 16 ГБ видеопамяти, а доля тех, кому хватает 8 ГБ, за год сократилась на шесть процентных пунктов.
Основные алгоритмы машинного обучения, такие как регрессия и методы на основе деревьев не сдают позиций, однако многие специалисты по анализу данных также используют нейронные сети. Растущая популярность и удобство сетей-трансформеров могут объяснить, почему 30% опрошенных занимаются работой в области обработки естественного языка (Natural Language Processing, NLP). Интересно, что лишь 24% респондентов отметили применение статистического тестирования в своей работе. Это говорит о том, что машинное и глубокое обучение приобретают все большее значение как фундаментальные навыки в области анализа данных, вытесняя классическую статистику.
13%
15%
Amazon SageMaker
9%
11%
Azure Machine Learning Studio
6%
9%
Vertex AI
4%
8%
IBM Watson Studio
4%
6%
Azure Databricks
Самыми популярными корпоративными облачными решениями стали сервисы Amazon. Примечательно, что по сравнению с прошлым годом значительно (более чем на 10 процентных пунктов) увеличилось использование корпоративных решений для машинного обучения.
TensorFlow немного опережает scikit-learn и PyTorch, а Keras и XGBoost демонстрируют уверенный рост популярности. Интересно, что значительная часть респондентов (19%) сообщили, что не используют какой-либо конкретный фреймворк.
TensorBoard
MLFlow
WandB
Другое
Никакие
Наиболее часто используемым инструментом является TensorBoard, доля которого составляет 23%, за ним следуют MLFlow (10%) и WandB (7%). При этом две трети специалистов не используют никаких специальных инструментов для отслеживания экспериментов по обучению моделей.
Машинное обучение и искусственный интеллект стали важнейшими компонентами повседневной деловой жизни, поэтому не удивительно, что почти половина наших респондентов использует различные функции на основе искусственного интеллекта, встроенные в привычное программное обеспечение.
Качество данных — типичная проблема для специалистов и организаций, имеющих дело с данными: около 50% опрошенных тратят на подготовку данных не менее 30% времени. Исследование Anaconda также подтверждает, что очистка данных становится наиболее трудоемким аспектом рабочего процесса для специалистов по обработке данных. Почти половина респондентов для подобных задач предпочитает использовать IDE.
Спасибо, что уделили время!
Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.
Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.