Data Science
Поделиться:
На вопросы из этого раздела отвечали разработчики, занятые в сфере бизнес-аналитики, машинного обучения, анализа и инжиниринга данных, а также дата-инженеры, бизнес-аналитики и сп ециалисты по анализу данных.
Значительная часть опрошенных совмещает анализ данных с другой работой. Это свидетельствует о том, что в сфере Data Science происходит демократизация и открываются новые возможности на рынке труда.
PyCharm
Универсальная IDE для работы с данными, прототипирования и развертывания моделей машинного обучения с отличной поддержкой Python, Jupyter-ноутбуков, библиотек для научных вычислений, Anaconda, а также баз данных SQL и NoSQL.
Большинство специалистов предпочитают использовать для исследования и представления данных проверенные временем графики. Этот способ визуализации широко используется в задачах, связанных со сбором и разведочным анализом данных, управлением данными и ML Ops.
Datalore
Datalore от JetBrains — это платформа для совместной работы над данными прямо в браузере. Ноутбуки Datalore совместимы с Jupyter и предлагают умные возможности редактирования кода на Python, SQL, R и Scala, а также визуализацию, не требующую написания кода. Конструктор отчетов Datalore позволяет командам превратить ноутбук в наглядное повествование, основанное на данных. С помощью Datalore можно делиться ноутбуками, редактировать их в реальном времени и организовывать проекты в рабочих пространствах.
Почти в половине команд есть отдельная должность дата-инженера или инженера по машинному обучению.
Такие узкоспециальные должности, как дата-сайентист, дата-инженер и инженер по машинному обучению появились на рынке труда относительно недавно. Многие приходят в эти профессии из смежных областей, что требует приобретения новых навыков путем самообразования или онлайн-обучения.
Хотя большинство специалистов по анализу данных не используют версионирование ноутбуков, значительная часть (41%) все же делает это, и большинство из них предпочитают Git или GitHub.
В мире Data Science широко распр остранены различные реализации Jupyter-ноутбуков: их часто используют для разведочного анализа, запроса данных и экспериментирования над ними, а также для прототипирования моделей. Примерно 40% специалистов используют Jupyter-ноутбуки для представления результатов, но, что интересно, многие из них (почти 50%) посвящают работе с ноутбуками лишь 10–20% своего времени.
Хотя большинство опрошенных работают с локальными файлами, доля тех, кто использует SQL-базы данных, за год выросла на 10 процентных пунктов, что говорит о важности SQL в сфере анализа данных.
Большинство опрошенных занимаются обработкой специально собранных данных, причем чаще всего они имеют дело с транзакционными данными, временными рядами, изображениями и машинными данными. Интересно, что 30% работают с синтетическими данными, то есть данными, созданными искусственно, а не собранными в реальных условиях.
Обучением моделей машинного или глубокого обучения занимаются около 40% всех респондентов. Однако среди тех, кто считает работу с данными своей основной деятельностью, этот показатель возрастает до более чем 60%. Эта тенденция означает, что предиктивное моделирование становится центральным аспектом работы с данными.
Половина специалистов по анализу данных переобучают или обновляют свои модели как минимум раз в месяц, однако большинство тратят на это не больше 20 часов ежемесячно.
Большинство профессионалов в области анализа данных (81%) используют графические процессоры для обучения моделей. Эффективное использование графических процессоров позволяет ускорить обучение и тем самым повысить производительность моделей, что делает GPU все более привлекательными для исследователей и аналитиков. Это также подчеркивает важность и актуальность технологических инноваций в машинном обучении.
Рост вычислительных мощностей — очевидный тренд в машинном обучении. Почти 80% специалистов по анализу данных теперь используют от 16 ГБ видеопамяти, а доля тех, кому хватает 8 ГБ, за год сократилась на шесть процентных пунктов.
Основные алгоритмы машинного обучения, такие как регрессия и методы на основе деревьев не сдают позиций, однако многие специалисты по анализу данных также используют нейронные сети. Растущая популярность и удобство сетей-трансформеров могут объяснить, почему 30% опрошенных занимаются работой в области обработки естественного языка (Natural Language Processing, NLP). Интересно, что лишь 24% респондентов отметили применение статистического тестирования в своей работе. Это говорит о том, что машинное и глубокое обучение приобретают все большее значение как фундаментальные навыки в области анализа данных, вытесняя классическую статистику.
Самыми популярными корпоративными облачными решениями стали сервисы Amazon. Примечательно, что по сравнению с прошлым годом значительно (более чем на 10 процентных пунктов) увеличилось использование корпоративных решений для машинного обучения.
TensorFlow немного опережает scikit-learn и PyTorch, а Keras и XGBoost демонстрируют уверенный рост популярности. Интересно, что значительная часть респондентов (19%) сообщили, что не используют какой-либо конкретный фреймворк.
Наиболее часто используемым инструментом является TensorBoard, доля которого составляет 23%, за ним следуют MLFlow (10%) и WandB (7%). При этом две трети специалистов не используют никаких специальных инструментов для отслеживания экспериментов по обучению моделей.
Машинное обучение и искусственный интеллект стали важнейшими компонентами повседневной деловой жизни, поэтому не удивительно, что почти половина наших респондентов использует различные функции на основе искусственного интеллекта, встроенные в привычное программное обеспечение.
Качество данных — типичная проблема для специалистов и организаций, имеющих дело с данными: около 50% опрошенных тратят на подготовку данных не менее 30% времени. Исследование Anaconda также подтверждает, что очистка данных становится наиболее трудоемким аспектом рабочего процесса для специалистов по обработке данных. Почти половина респондентов для подобных задач предпочитает использовать IDE.
Спасибо, что уделили время!
Если результаты исследования показались вам интересными, поделитесь ими с друзьями и коллегами.
Если у вас есть вопросы или пожелания, свяжитесь с нами по адресу surveys@jetbrains.com.