本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。本调查专门针对开发者,因此结果可能无法代表更广泛的大数据受众。

大数据

您使用哪种(哪些)统计软件包来分析和可视化数据?

电子表格编辑器是最常用的数据分析和可视化工具 (46%)。

您使用哪种(哪些)大数据分析平台?

大多数大数据开发者不使用特定的数据分析平台 (68%)。最常用的数据分析平台是 Google Colab (19%)。

您使用哪种(哪些)大数据工具?

Jupyter 是最受欢迎的大数据工具,被 32% 的大数据开发者使用。其他流行的工具是 Apache Spark (20%) 和 Apache Kafka (17%)。

您使用哪个 Spark 版本?

您的大部分数据托管在哪里?

数据主要托管于内部服务器 (36%) 或本地 (26%)。21% 的受访者将 AWS 用于数据托管,其他类型的托管不太常见。

IT 是否为贵公司的核心业务?

机器学习专家更常在核心 IT 公司工作。

贵公司主营以下哪个(哪些)领域的业务?

在非 IT 领域,数据工程师更常受雇于金融领域,而机器学习专家更常在教育和科学领域工作。

贵公司主营以下哪个(哪些)领域的业务?

Python、Scala 和 Java 以及 Apache Spark 的使用情况

Python 与 Apache Spark 搭配使用的比例为 66%,Java 为 34%,Scala 为 11%。

使用的大数据工具的前 10 种组合

10% 的受访者同时使用 Apache Spark 和 Apache Kafka。9% 的受访者同时使用 Apache Spark 和 Apache Hadoop。

与 Apache Kafka 搭配使用的前 3 种语言

与 Apache Kafka 搭配使用的三种最流行的语言是 Python、Java 和 SQL。

美国、欧洲、俄罗斯和亚洲的 Python/R 比率

R 在俄罗斯使用更广泛 (5%),Python 在亚洲使用更广泛 (59%)。

按大数据托管使用情况划分的主要语言

Python 和 Java 更常用于 Google Cloud,JavaScript 和 PHP 更常用于 AWS,C# 更常用于 Azure。

按大数据托管使用情况划分的大数据工具使用情况

Jupyter 和 Apache Beam 更常与 Google Cloud 搭配使用。Apache Spark 和 Apache Kafka 在 AWS 用户中更常用。

按数据分析/数据工程/机器学习参与度划分的主要语言

与从事数据分析和数据工程的开发者相比,机器学习专家更常使用 Python、C++ 和 C,而较少使用 SQL 和 PHP。

按领域划分的主要语言

Python 和 R 更常被教育和科学领域的开发者使用。

按行业显示的大数据工具使用情况

Jupyter 更常用于教育和科学。Apache Spark、Apache Kafka、Apache Hadoop 和 Apache Hive 更常用于银行业务。

按国家或地区显示的 Apache Spark 使用份额

Apache Spark 用户的最大份额位于中国、印度、韩国、西班牙和拉丁美洲。

感谢您的参与!

我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。

加入 JetBrains Tech Insights Lab

参与调查和用户体验研究,让 JetBrains 产品更易用、更强大。参与我们的研究,您还将有机会获得奖励。

如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com