数据科学

分享:

本部分中的问题面向参与商业智能、数据分析、数据工程、机器学习的开发者,或工作角色为数据分析师/数据工程师/数据科学家或业务分析师的人员。

对您来说,数据科学、数据分析、数据工程或机器学习是什么类型的活动?

相当多的受访者将数据科学职责与其他活动结合。这些结果表明该领域已经民主化,并且存在市场增长潜力。

您参与以下哪种(哪些)类型的活动?

在 JetBrains,我们创建了面向团队的协作数据科学平台 Datalore。Datalore 为数据专业人士提供了出色的编码体验,还为数据探索和可视化工作流带来了无代码自动化。这意味着非技术用户也可以使用与核心数据团队相同的工具进行临时报告和数据可视化。

您是如何学习数据科学、机器学习或数据工程的?

数据科学家、数据工程师和机器学习工程师等专门的数据专家职位相对较新。许多受访者都是在相邻领域工作过或接受培训后转任这些职位,因此需要通过独立学习或在线课程提高技能。虽然 STEM 研究生学位历来是通往数据科学或机器学习领域的最常见途径,但过去七年的趋势表明,持有学士学位的人也在不断增加,从 2015 年的 20% 上升到 2021 年的 31%。专攻数据技能的新本科项目毕业生越来越多,这些结果可能会因此转向通过正规教育习得相关技能的人士。

您使用什么哪款(哪些)IDE 或编辑器进行数据科学或数据分析?

Jupyter Notebook 成为数据科学和数据分析工作的首选编辑器,大约 40% 的受访者表示为这些活动使用 Notebook。在报告进行数据收集和可视化、探索性数据分析或机器学习建模的受访者中,这一结果更高,70% 的受访者表示使用 Jupyter Notebook。

通过我们最近的研究详细了解此主题。我们发现,从 2019 年到 2020 年,Python 3 Notebook 的数量增长了 87%,Python 2 Notebook 的数量增长了 12%。

您将多少工作时间花在 Notebook 上?

您使用 Notebook 做什么?

Jupyter Notebook 仍然是最受欢迎的工具之一,42% 的受访者使用它们,超过 50% 的受访者将引用数据作为主要活动。它们主要用于探索性工作,例如探索数据和创建模型原型。然而,即使在主要从事数据专家工作的受访者中,也只有少数受访者使用 Notebook 的时间超过 40%。

您是否对 Notebook 进行版本控制?

您使用什么版本控制工具?

对 Notebook 进行版本控制的比例相当大,这是一个好迹象,表明很大一部分数据专业人士将 Notebook 视为需要维护的代码。在对 Notebook 进行版本管理的人中,最受欢迎的工具是 Git 和 GitHub。

通过 Git 命令行界面 (CLI) 对 Jupyter Notebook 进行版本控制可能很困难。好在 DataSpell 为使用 Git 提供了丰富功能,可供通过 UI 轻松执行核心任务,例如设置仓库、添加和推送 Notebook,以及查看 Notebook 提交之间的差异 – 无需记住任何 Git 命令!查看本文详细了解如何在 DataSpell 中搭配使用 Git 和 Jupyter Notebook。

您使用什么类型的数据源?

除了本地文件,SQL 数据库仍然是数据专家最常用的数据源。

您使用什么工具展示研究结果?

借助 Datalore,您可以在几秒钟内将 Jupyter Notebook 变成美观的数据应用。首先,在画布上排列单元格,然后以静态或交互模式发布结果。您的利益相关者将能够通过链接访问报告。

查看报告

您使用什么样的方法和算法?

回归和基于树的方法等核心机器学习算法依然使用广泛。不过,大多数受访者也使用神经网络,特别是 Transformer 架构。Transformer 网络的易用性和普及度也可以解释为什么超过四分之一的受访者表示从事 NLP 工作。有趣的是,只有五分之一的受访者表示在工作中使用统计测试,这表明机器学习和深度学习已经取代经典统计成为核心数据技能。

您使用哪种(哪些)机器学习框架?

TensorFlow 是所有受访者中最受欢迎的深度学习框架,尽管将数据工作作为主要活动的受访者均衡地使用它和 PyTorch。Scikit-learn 是最受欢迎的机器学习库,尽管只有少数参与者使用基于树的建模的专业软件包和框架,例如 XGBoost 和 LightGBM。

您使用哪种(哪些)企业机器学习解决方案?

Amazon 服务是最受欢迎的企业云解决方案。

包括您在内,您的数据团队有多少人?

大多数受访者 (70%) 在不超过 10 人的小组中工作。五分之一的人在拥有超过 15 名数据专家的团队中工作。

您的团队或数据部门是否有专门的数据工程师角色?

几乎 50% 的团队或部门都有专门的数据工程师角色。

您的团队或数据部门是否有专门的机器学习工程师角色?

超过 50% 的受访者表示自己的团队有专门的数据工程师或机器学习工程师。数据工程师和机器学习工程师都是广义的头衔,因公司而异,因此这两种角色都可能负责机器学习相关任务,例如模型部署和数据管道管理。显然,团队越大,有人担任这些角色的可能性就越大。在 1-2 名成员的数据团队中,超过 80% 的受访者表示既没有专门的数据工程师也没有机器学习工程师,而在超过 15 人的数据团队中,79% 的受访者表示有专门的数据工程师,65% 的受访者表示有专门的机器学习工程师。

您是否训练机器学习或深度学习模型?

只有不到一半的受访者训练机器或深度学习模型,而在以数据工作为主要活动的受访者中,这一数字上升到 60%。这表明预测建模正在成为行业数据工作的核心组成部分。

您是否使用 GPU 训练模型?

您的机器学习任务通常需要多少 VRAM?

大多数受访者表示使用 GPU 训练机器或深度学习模型。VRAM 需求因受访者的数据处理方式而异。在将数据工作作为业余爱好或教育目的的受访者中,40% 表示 8 GB 就已足够,而在将数据工作作为主要工作活动的受访者中,这一比例只有 18%。

您每月在模型训练上花费多少时间?

大多数受访者表示每周花费最多 20 小时训练模型,其中可能包括模型过夜训练的时间。近三分之一的受访者每周花费 5 小时或更少的时间训练模型。这与之前的结果一致,表明模型训练只占数据科学工作的一小部分,大部分时间都在数据准备和探索上。

您将什么类型的计算资源用于数据科学任务?

与我们调查中的其他答案一致,Notebook 上的主要活动是数据探索和可视化,大多数受访者处理本地文件,大多数受访者也使用本地资源完成数据科学工作。令人惊讶的是,受访者不同的数据处理方式并没有形成过大差异。将数据工作作为主要活动的人与将其作为业余爱好或教育目的的人一样可能使用本地资源。

您使用哪种(哪些)特定工具跟踪模型训练实验?

大多数受访者表示不使用任何工具跟踪模型训练实验的性能。但是,当团队有专门的机器学习工程师 (62%),或者当受访者参与机器学习建模和 ML Ops 工作 (63%) 时,由 15 人或更多人组成的数据团队更有可能使用此类工具(此类团队中 58% 的受访者至少使用一个)。这表明这种工具倾向于在具有与机器学习模型开发相关的专业知识的环境使用。

您最常使用什么图表进行数据可视化?

大多数数据专家使用简单但有意义的图表来探索和呈现数据。从数据收集和探索性数据分析到数据编排和 ML Ops,大多数受访者都使用这些图表,无论参与的数据活动类型是什么。

数据科学:

2022

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com