数据科学

分享:

本部分中的问题面向参与商业智能、数据分析、数据工程、机器学习的开发者,或工作角色为数据分析师/数据工程师/数据科学家或业务分析师的人员。

对您来说,数据科学、数据分析或机器学习是什么类型的活动?

有相当多的受访者似乎都在负责数据科学的同时兼顾着其他活动。这些发现表明,对数据科学的研究在各领域正变得更普遍,意味着数据科学市场的潜在增长机会。

您的团队或数据部门是否有专门的机器学习工程师角色?

PyCharm

用于构建数据管道、分析数据、设计原型和部署 ML 模型的一体化 Python IDE,对 Python、科学库、交互式 Jupyter Notebook、Anaconda、SQL 和 NoSQL 数据库等提供出色的支持。

您最常分析什么类型的数据?

您参与以下哪种(哪些)类型的活动?

您最常使用哪种(哪些)图表进行数据可视化?

大多数数据科学专业人士发现,使用经过验证的真实图表进行数据探索和展示非常有价值。这些类型的图表广泛用于各种与数据相关的任务,如数据收集、探索性数据分析、数据编排和 ML Ops。

Datalore

JetBrains 开发的 Datalore 是一个面向团队的协作数据科学和分析平台,可直接从浏览器访问。Datalore Notebook 与 Jupyter 兼容,并为 Python、SQL、R 和 Scala Notebook 提供智能编码辅助,以及无代码可视化和数据整理。Datalore 的报告构建器让团队可以将充满代码和实验的 Notebook 变成清晰、数据驱动的案例。团队可以共享 Notebook、实时编辑它们,并在工作区中组织项目。

您的团队或数据部门是否有专门的数据工程师角色?

几乎一半的团队和部门都有专门的数据工程师或机器学习工程师。

您是如何学习数据科学、机器学习或数据工程的?

数据科学家、数据工程师和机器学习工程师等专业职位是就业市场上相对较新的职位。许多受访者从相关领域过渡到这些职位,需要通过自学或在线课程获得新技能。

包括您在内,您的数据团队有多少人?

超过 50% 的数据处理人员在 5 人或以上的团队中工作。

您使用什么哪款(哪些)IDE 或编辑器进行数据科学或数据分析?

您将多少工作时间花在 Notebook 上?

您使用 Notebook 做什么?

您是否对 Notebook 进行版本控制?

您使用什么版本控制工具?

虽然大多数数据科学专业人士不会对 Notebook 进行版本控制,但有相当大的一部分人 (41%) 选择这样做,其中大多数人选择 Git 或 GitHub 进行版本控制。

您使用什么工具展示研究结果?

Jupyter Notebook 的各种实现在数据科学中广泛流行,常见的用例包括探索性数据分析、数据和数据查询实验,以及模型原型设计。约 40% 的数据科学专业人士使用 Jupyter Notebook 来展示其工作结果,但有趣的是,许多人(近 50%)只花费 10%-20% 的时间使用 Jupyter Notebook。

您将什么类型的计算资源用于数据科学任务?

大多数受访者的数据科学工作依赖于本地资源。

您使用什么类型的数据源?

尽管大多数用户使用本地文件,但在过去一年中,使用 SQL 数据库的用户比例增长了 10 个百分点,凸显了 SQL 对于数据科学的重要性。

您最常使用什么类型的数据?

您在工作中是否使用合成数据?

大多数接受调查的数据科学家处理自定义收集的数据,最流行的数据类型是事务数据、时间序列数据、图像和机器生成的数据。有趣的是,30% 的受访者使用合成数据 – 人工制造的数据,而不是由真实世界事件生成的数据。

您是否训练机器学习或深度学习模型?

大约 40% 的受访者训练过机器或深度学习模型。然而,在以数据工作为主要活动的受访者中,这一数字上升到 60%。这一行业趋势意味着预测建模正在成为处理数据工作的核心方面。

您重新训练/更新机器学习模型的频率如何?

您每月在模型训练上花费多长时间?

虽然一半的数据科学专业人士每月至少对机器学习模型进行一次再训练或更新,但大多数人每月在这项任务上花费的时间不到 20 个小时。

您是否使用 GPU 训练模型?

大多数 (81%) 的数据科学专业人士使用 GPU 进行模型训练。图形处理器的有效使用可以加快训练速度,从而提高模型性能,这使其成为对研究人员和数据专家越来越有吸引力的资源。这也强调了技术创新在机器学习领域的重要性和相关性。

您的机器学习任务通常需要多少 VRAM?

更高的算力是机器学习任务的一个明显趋势。现在,近 80% 的数据科学专业人士使用 16 GB 或更多的 VRAM,而使用 8 GB 的比例过去一年下降了 6 个百分点。

您使用什么样的方法和算法?

尽管相当一部分数据科学专业人士也接受神经网络,但回归和基于树的方法等核心机器学习算法仍然很流行。Transformer 网络的日益普及和人性化也许可以解释为什么 30% 的受访者表示从事 NLP 工作。有趣的是,只有 24% 的参与者表示在工作中使用统计测试,这表明机器学习和深度学习已经超越经典统计,成为基础数据技能。

您使用哪种(哪些)企业机器学习解决方案?

Amazon 服务是最受欢迎的企业云解决方案。值得注意的是,与上一年相比,企业机器学习解决方案的采用率显著增加(超过 10 个百分点)。

您使用什么机器学习框架?

TensorFlow 的受欢迎程度略高于 scikit-learn 和 PyTorch,Keras 和 XGBoost 也表现出稳定的采用率。有趣的是,很大比例的受访者 (19%) 表示不使用任何特定的框架。

您使用哪种(哪些)特定工具跟踪模型训练实验?

TensorBoard 是最常用的工具,占 23% 的份额,其次是 MLFlow,占 10%,WandB 占 7%。然而,三分之二的数据科学专业人士不使用任何特定工具来跟踪其模型训练实验。

以下哪项能够最贴切地描述您所在组织对机器学习的使用?

机器学习和 AI 已经成为日常商业生活的重要组成部分,因此,几乎一半的受访者使用集成到他们使用的软件中的各种基于 AI 的功能,这并不足为奇。

您使用哪种(哪些)企业云解决方案?

以下哪种(哪些)数据驱动的活动对您或您所在组织来说最难执行?

平均而言,您的团队花在管理、清理或标记数据上的时间百分比是多少?

您使用什么工具进行数据清理?

数据质量是处理数据的专业人士和组织的典型问题,因为近 50% 的人将 30% 或更多的时间用于数据准备。Anaconda 的一项研究也证实,数据清理正在成为数据专业人士的工作流中最耗时的工作。几乎一半的受访者选择使用集成开发环境 (IDE) 来处理这些类型的任务。

数据科学:

2023

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com