数据科学
分享:
本部分中的问题面向参与商业智能、数据分析、数据工程、机器学习的开发者,或工作角色为数据分析师/数据工程师/数据科学家或业务分析师的人员。
相当多的受访者将数据科学职责与其他活动结合。这些结果表明该领域已经民主化,并且存在市场增长潜力。
在 JetBrains,我们创建了面向团队的协作数据科学平台 Datalore。Datalore 为数据专业人士提供了出色的编码体验,还为数据探索和可视化工作流带来了无代码自动化。这意味着非技术用户也可以使用与核心数据团队相同的工具进行临时报告和数据可视化。
Jupyter Notebook 成为数据科学和数据分析工作的首选编辑器,大约 40% 的受访者表示为这些活动使用 Notebook。在报告进行数据收集和可视化、探索性数据分析或机器学习建模的受访者中,这一结果更高,70% 的受访者表示使用 Jupyter Notebook。
通过我们最近的研究详细了解此主题。我们发现,从 2019 年到 2020 年,Python 3 Notebook 的数量增长了 87%,Python 2 Notebook 的数量增长了 12%。
Jupyter Notebook 仍然是最受欢迎的工具之一,42% 的受访者使用它们,超过 50% 的受访者将引用数据作为主要活动。它们主要用于探索性工作,例如探索数据和创建模型原型。然而,即使在主要从事数据专家工作的受访者中,也只有少数受访者使用 Notebook 的时间超过 40%。
对 Notebook 进行版本控制的比例相当大,这是一个好迹象,表明很大一部分数据专业人士将 Notebook 视为需要维护的代码。在对 Notebook 进行版本管理的人中,最受欢迎的工具是 Git 和 GitHub。
除了本地文件,SQL 数据库仍然是数据专家最常用的数据源。
借助 Datalore,您可以在几秒钟内将 Jupyter Notebook 变成美观的数据应用。首先,在画布上排列单元格,然后以静态或交互模式发布结果。您的利益相关者将能够通过链接访问报告。
查看报告回归和基于树的方法等核心机器学习算法依然使用广泛。不过,大多数受访者也使用神经网络,特别是 Transformer 架构。Transformer 网络的易用性和普及度也可以解释为什么超过四分之一的受访者表示从事 NLP 工作。有趣的是,只有五分之一的受访者表示在工作中使用统计测试,这表明机器学习和深度学习已经取代经典统计成为核心数据技能。
TensorFlow 是所有受访者中最受欢迎的深度学习框架,尽管将数据工作作为主要活动的受访者均衡地使用它和 PyTorch。Scikit-learn 是最受欢迎的机器学习库,尽管只有少数参与者使用基于树的建模的专业软件包和框架,例如 XGBoost 和 LightGBM。
Amazon 服务是最受欢迎的企业云解决方案。
大多数受访者 (70%) 在不超过 10 人的小组中工作。五分之一的人在拥有超过 15 名数据专家的团队中工作。
几乎 50% 的团队或部门都有专门的数据工程师角色。
超过 50% 的受访者表示自己的团队有专门的数据工程师或机器学习工程师。数据工程师和机器学习工程师都是广义的头衔,因公司而异,因此这两种角色都可能负责机器学习相关任务,例如模型部署和数据管道管理。显然,团队越大,有人担任这些角色的可能性就越大。在 1-2 名成员的数据团队中,超过 80% 的受访者表示既没有专门的数据工程师也没有机器学习工程师,而在超过 15 人的数据团队中,79% 的受访者表示有专门的数据工程师,65% 的受访者表示有专门的机器学习工程师。
大多数受访者表示使用 GPU 训练机器或深度学习模型。VRAM 需求因受访者的数据处理方式而异。在将数据工作作为业余爱好或教育目的的受访者中,40% 表示 8 GB 就已足够,而在将数据工作作为主要工作活动的受访者中,这一比例只有 18%。
大多数受访者表示每周花费最多 20 小时训练模型,其中可能包括模型过夜训练的时间。近三分之一的受访者每周花费 5 小时或更少的时间训练模型。这与之前的结果一致,表明模型训练只占数据科学工作的一小部分,大部分时间都在数据准备和探索上。
与我们调查中的其他答案一致,Notebook 上的主要活动是数据探索和可视化,大多数受访者处理本地文件,大多数受访者也使用本地资源完成数据科学工作。令人惊讶的是,受访者不同的数据处理方式并没有形成过大差异。将数据工作作为主要活动的人与将其作为业余爱好或教育目的的人一样可能使用本地资源。
大多数受访者表示不使用任何工具跟踪模型训练实验的性能。但是,当团队有专门的机器学习工程师 (62%),或者当受访者参与机器学习建模和 ML Ops 工作 (63%) 时,由 15 人或更多人组成的数据团队更有可能使用此类工具(此类团队中 58% 的受访者至少使用一个)。这表明这种工具倾向于在具有与机器学习模型开发相关的专业知识的环境使用。
大多数数据专家使用简单但有意义的图表来探索和呈现数据。从数据收集和探索性数据分析到数据编排和 ML Ops,大多数受访者都使用这些图表,无论参与的数据活动类型是什么。