数据科学
分享:
本部分中的问题面向参与商业智能、数据分析、数据工程、机器学习的开发者,或工作角色为数据分析师/数据工程师/数据科学家或业务分析师的人员。
有相当多的受访者似乎都在负责数据科学的同时兼顾着其他活动。这些发现表明,对数据科学的研究在各领域正变得更普遍,意味着数据科学市场的潜在增长机会。
PyCharm
用于构建数据管道、分析数据、设计原型和部署 ML 模型的一体化 Python IDE,对 Python、科学库、交互式 Jupyter Notebook、Anaconda、SQL 和 NoSQL 数据库等提供出色的支持。
大多数数据科学专业人士发现,使用经过验证的真实图表进行数据探索和展示非常有价值。这些类型的图表广泛用于各种与数据相关的任务,如数据收集、探索性数据分析、数据编排和 ML Ops。
Datalore
JetBrains 开发的 Datalore 是一个面向团队的协作数据科学和分析平台,可直接从浏览器访问。Datalore Notebook 与 Jupyter 兼容,并为 Python、SQL、R 和 Scala Notebook 提供智能编码辅助,以及无代码可视化和数据整理。Datalore 的报告构建器让团队可以将充满代码和实验的 Notebook 变成清晰、数据驱动的案例。团队可以共享 Notebook、实时编辑它们,并在工作区中组织项目。
几乎一半的团队和部门都有专门的数据工程师或机器学习工程师。
数据科学家、数据工程师和机器学习工程师等专业职位是就业市场上相对较新的职位。许多受访者从相关领域过 渡到这些职位,需要通过自学或在线课程获得新技能。
虽然大多数数据科学专业人士不会对 Notebook 进行版本控制,但有相当大的一部分人 (41%) 选择这样做,其中大多数人选择 Git 或 GitHub 进行版本控制。
Jupyter Notebook 的各种实现在数据科学中广泛流行,常见的用例包括探索性数据分析、数据和数据查询实验,以及模型原型设计。约 40% 的数据科学专业人士使用 Jupyter Notebook 来展示其工作结果,但有趣的是,许多人(近 50%)只花费 10%-20% 的时间使用 Jupyter Notebook。
尽管大多数用户使用本地文件,但在过去一年中,使用 SQL 数据库的用户比例增长了 10 个百分点,凸显了 SQL 对于数据科学的重要性。
大多数接受调查的数据科学家处理自定义收集的数据,最流行的数据类型是事务数据、时间序列数据、图像和机器生成的数据。有趣的是,30% 的受访者使用合成数据 – 人工制造的数据,而不是由真实世界事件生成的数据。
大约 40% 的受访者训练过机器或深度学习模型。然而,在以数据工作为主要活动的受访者中,这一数字上升到 60%。这一行业趋势意味着预测建模正在成为处理数据工作的核心方面。
虽然一半的数据科学专业人士每月至少对机器学习模型进行一次再训练或更新,但大多数人每月在这项任务上花费的时间不到 20 个小时。
大多数 (81%) 的数据科学专业人士使用 GPU 进行模型训练。图形处理器的有效使用可以加快训练速度,从而提高模型性能,这使其成为对研究人员和数据专家越来越有吸引力的资源。这也强调了技术创新在机器学习领域的重要性和相关性。
更高的算力是机器学习任务的一个明显趋势。现在,近 80% 的数据科学专业人士使用 16 GB 或更多的 VRAM,而使用 8 GB 的比例过去一年下降了 6 个百分点。
尽管相当一部分数据科学专业人士也接受神经网络,但回归和基于树的方法等核心机器学习算法仍然很流行。Transformer 网络的日益普及和人性化也许可以解释为什么 30% 的受访者表示从事 NLP 工作。有趣的是,只有 24% 的参与者表示在工作中使用统计测试,这表明机器学习和深度学习已经超越经典统计,成为基础数据技能。
Amazon 服务是最受欢迎的企业云解决方 案。值得注意的是,与上一年相比,企业机器学习解决方案的采用率显著增加(超过 10 个百分点)。
TensorFlow 的受欢迎程度略高于 scikit-learn 和 PyTorch,Keras 和 XGBoost 也表现出稳定的采用率。有趣的是,很大比例的受访者 (19%) 表示不使用任何特定的框架。
TensorBoard 是最常用的工具,占 23% 的份额,其次是 MLFlow,占 10%,WandB 占 7%。然而,三分之二的数据科学专业人士不使用任何特定工具来跟踪其模型训练实验。
机器学习和 AI 已经成为日常商业生活的重要组成部分,因此,几乎一半的受访者使用集成到他们使用的软件中的各种基于 AI 的功能,这并不足为奇。
数据质量是处理数据的专业人士和组织的典型问题,因为近 50% 的人将 30% 或更多的时间用于数据 准备。Anaconda 的一项研究也证实,数据清理正在成为数据专业人士的工作流中最耗时的工作。几乎一半的受访者选择使用集成开发环境 (IDE) 来处理这些类型的任务。