数据科学

分享:

本部分中的问题面向参与商业智能、数据分析、数据工程、机器学习的开发者,或工作角色为数据分析师/数据工程师/数据科学家或业务分析师的人员。

对您来说,数据科学、数据分析或机器学习是什么类型的活动?

数据分析数据科学机器学习
19%17%16%这是我的主要专业活动
36%31%23%这是我的次要专业活动
14%16%18%为教育目的服务
18%20%24%这只是一个爱好
12%16%19%我不参与数据科学
12%36%

有相当多的受访者似乎都在负责数据科学的同时兼顾着其他活动。这些发现表明,对数据科学的研究在各领域正变得更普遍,意味着数据科学市场的潜在增长机会。

您的团队或数据部门是否有专门的机器学习工程师角色?

PyCharm

用于构建数据管道、分析数据、设计原型和部署 ML 模型的一体化 Python IDE,对 Python、科学库、交互式 Jupyter Notebook、Anaconda、SQL 和 NoSQL 数据库等提供出色的支持。

您最常分析什么类型的数据?

33%

交易数据

30%

时间序列数据

27%

照片或图像文件

26%

机器生成的数据

23%

网页

20%

Web 点击流数据

18%

客户互动

您参与以下哪种(哪些)类型的活动?

46%

数据可视化

43%

数据收集/数据抓取

33%

探索性数据分析

31%

机器学习建模

31%

数据管道

23%

机器学习运营

21%

存储架构

您最常使用哪种(哪些)图表进行数据可视化?

64%

折线图

58%

条形图

57%

散点图

54%

直方图

33%

堆叠条形图

31%

分组条形图

13%

小提琴图

4%

其他

10%

大多数数据科学专业人士发现,使用经过验证的真实图表进行数据探索和展示非常有价值。这些类型的图表广泛用于各种与数据相关的任务,如数据收集、探索性数据分析、数据编排和 ML Ops。

Datalore

JetBrains 开发的 Datalore 是一个面向团队的协作数据科学和分析平台,可直接从浏览器访问。Datalore Notebook 与 Jupyter 兼容,并为 Python、SQL、R 和 Scala Notebook 提供智能编码辅助,以及无代码可视化和数据整理。Datalore 的报告构建器让团队可以将充满代码和实验的 Notebook 变成清晰、数据驱动的案例。团队可以共享 Notebook、实时编辑它们,并在工作区中组织项目。

您的团队或数据部门是否有专门的数据工程师角色?

几乎一半的团队和部门都有专门的数据工程师或机器学习工程师。

您是如何学习数据科学、机器学习或数据工程的?

56%

我独立学习过

41%

我在大学学习过编程或数据分析

36%

我学习过在线课程

19%

我以前做过软件工程工作

4%

其他

数据科学家、数据工程师和机器学习工程师等专业职位是就业市场上相对较新的职位。许多受访者从相关领域过渡到这些职位,需要通过自学或在线课程获得新技能。

包括您在内,您的数据团队有多少人?

20%

1-2 个

15%

3 个

11%

4 个

9%

5 个

16%

6-7 个

12%

8-10 个

7%

11-15 个

11%

超过 15 个

超过 50% 的数据处理人员在 5 人或以上的团队中工作。

您使用什么哪款(哪些)IDE 或编辑器进行数据科学或数据分析?

40%

Visual Studio Code

35%

Jupyter Notebook

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

您将多少工作时间花在 Notebook 上?

48%

10-20%

23%

20-40%

20%

超过 40%

10%

我不使用 Notebook

您使用 Notebook 做什么?

71%

探索性数据分析

66%

数据/数据查询实验

65%

可视化

43%

模型原型设计

9%

编排

1%

其他

您是否对 Notebook 进行版本控制?

您使用什么版本控制工具?

57%

Git

57%

GitHub

23%

GitLab

20%

在我的编辑器/IDE 中进行版本控制

12%

我创建了几个 Notebook 副本

2%

其他

虽然大多数数据科学专业人士不会对 Notebook 进行版本控制,但有相当大的一部分人 (41%) 选择这样做,其中大多数人选择 Git 或 GitHub 进行版本控制。

您使用什么工具展示研究结果?

39%

PowerPoint、Google 幻灯片等

37%

我展示 Notebook

36%

电子表格编辑器

25%

MS Word、Google 文档等

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

其他

Jupyter Notebook 的各种实现在数据科学中广泛流行,常见的用例包括探索性数据分析、数据和数据查询实验,以及模型原型设计。约 40% 的数据科学专业人士使用 Jupyter Notebook 来展示其工作结果,但有趣的是,许多人(近 50%)只花费 10%-20% 的时间使用 Jupyter Notebook。

您将什么类型的计算资源用于数据科学任务?

57%

本地资源

28%

本地部署的公司服务器

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

其他

15%

大多数受访者的数据科学工作依赖于本地资源。

您使用什么类型的数据源?

67%

64%

本地文件

52%

62%

SQL 数据库

24%

23%

​​Amazon S3

19%

15%

大数据

14%

15%

Google 文件存储

8%

9%

Azure 文件存储

5%

4%

其他

尽管大多数用户使用本地文件,但在过去一年中,使用 SQL 数据库的用户比例增长了 10 个百分点,凸显了 SQL 对于数据科学的重要性。

您最常使用什么类型的数据?

您在工作中是否使用合成数据?

大多数接受调查的数据科学家处理自定义收集的数据,最流行的数据类型是事务数据、时间序列数据、图像和机器生成的数据。有趣的是,30% 的受访者使用合成数据 – 人工制造的数据,而不是由真实世界事件生成的数据。

您是否训练机器学习或深度学习模型?

大约 40% 的受访者训练过机器或深度学习模型。然而,在以数据工作为主要活动的受访者中,这一数字上升到 60%。这一行业趋势意味着预测建模正在成为处理数据工作的核心方面。

您重新训练/更新机器学习模型的频率如何?

27%

每月一次以上

23%

每月一次

18%

每季度一次

7%

每年两次

7%

每年一次

18%

从不

您每月在模型训练上花费多长时间?

27%

0–5 小时

36%

5–20 小时

23%

20–50 小时

8%

50–100 小时

6%

超过 100 小时

虽然一半的数据科学专业人士每月至少对机器学习模型进行一次再训练或更新,但大多数人每月在这项任务上花费的时间不到 20 个小时。

您是否使用 GPU 训练模型?

大多数 (81%) 的数据科学专业人士使用 GPU 进行模型训练。图形处理器的有效使用可以加快训练速度,从而提高模型性能,这使其成为对研究人员和数据专家越来越有吸引力的资源。这也强调了技术创新在机器学习领域的重要性和相关性。

您的机器学习任务通常需要多少 VRAM?

28%

22%

8 GB

33%

29%

16 GB

23%

22%

32 GB

10%

14%

64 GB

5%

6%

128 GB

8%

超过 128GB

更高的算力是机器学习任务的一个明显趋势。现在,近 80% 的数据科学专业人士使用 16 GB 或更多的 VRAM,而使用 8 GB 的比例过去一年下降了 6 个百分点。

您使用什么样的方法和算法?

47%

线性或逻辑回归

47%

神经网络

38%

决策树或随机森林

36%

聚类方法

30%

自然语言处理方法

25%

贝叶斯方法

24%

Transformer 网络

尽管相当一部分数据科学专业人士也接受神经网络,但回归和基于树的方法等核心机器学习算法仍然很流行。Transformer 网络的日益普及和人性化也许可以解释为什么 30% 的受访者表示从事 NLP 工作。有趣的是,只有 24% 的参与者表示在工作中使用统计测试,这表明机器学习和深度学习已经超越经典统计,成为基础数据技能。

您使用哪种(哪些)企业机器学习解决方案?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Amazon 服务是最受欢迎的企业云解决方案。值得注意的是,与上一年相比,企业机器学习解决方案的采用率显著增加(超过 10 个百分点)。

您使用什么机器学习框架?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow 的受欢迎程度略高于 scikit-learn 和 PyTorch,Keras 和 XGBoost 也表现出稳定的采用率。有趣的是,很大比例的受访者 (19%) 表示不使用任何特定的框架。

您使用哪种(哪些)特定工具跟踪模型训练实验?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

其他

66%

TensorBoard 是最常用的工具,占 23% 的份额,其次是 MLFlow,占 10%,WandB 占 7%。然而,三分之二的数据科学专业人士不使用任何特定工具来跟踪其模型训练实验。

以下哪项能够最贴切地描述您所在组织对机器学习的使用?

47%

在产品或服务中使用基于 AI 的功能

30%

帮助研发新产品

28%

驱动正式版应用程序

28%

仍在研究/试验潜在应用程序

25%

提高对公司数据的理解

22%

降低业务成本

21%

支持其他业务职能

机器学习和 AI 已经成为日常商业生活的重要组成部分,因此,几乎一半的受访者使用集成到他们使用的软件中的各种基于 AI 的功能,这并不足为奇。

您使用哪种(哪些)企业云解决方案?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

以下哪种(哪些)数据驱动的活动对您或您所在组织来说最难执行?

47%

数据质量

29%

数据安全和治理

28%

数据准备/转换

28%

数据分析

23%

数据创建/收集

22%

数据集成

20%

数据迁移

平均而言,您的团队花在管理、清理或标记数据上的时间百分比是多少?

您使用什么工具进行数据清理?

47%

IDE

27%

云平台

27%

电子表格

3%

专用工具,如 OpenRefine

5%

其他

29%

我不清理数据

数据质量是处理数据的专业人士和组织的典型问题,因为近 50% 的人将 30% 或更多的时间用于数据准备。Anaconda 的一项研究也证实,数据清理正在成为数据专业人士的工作流中最耗时的工作。几乎一半的受访者选择使用集成开发环境 (IDE) 来处理这些类型的任务。

数据科学:

2023

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com