本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。本调查专门针对开发者,因此结果可能无法代表更广泛的大数据受众。
大数据
电子表格编辑器是最常用的数据分析和可视化工具 (46%)。
大多数大数据开发者不使用特定的数据分析平台 (68%)。最常用的数据分析平台是 Google Colab (19%)。
Jupyter 是最受欢迎的大数据工具,被 32% 的大数据开发者使用。其他流行的工具是 Apache Spark (20%) 和 Apache Kafka (17%)。
在非 IT 领域,数据工程师更常受雇于金融领域,而机器学习专家更常在教育和科学领域工作。
Python 与 Apache Spark 搭配使用的比例为 66%,Java 为 34%,Scala 为 11%。
10% 的受访者同时使用 Apache Spark 和 Apache Kafka。9% 的受访者同时使用 Apache Spark 和 Apache Hadoop。
与 Apache Kafka 搭配使用的三种最流行的语言是 Python、Java 和 SQL。
R 在俄罗斯使用更广泛 (5%),Python 在亚洲使用更广泛 (59%)。
Python 和 Java 更常用于 Google Cloud,JavaScript 和 PHP 更常用于 AWS,C# 更常用于 Azure。
Jupyter 和 Apache Beam 更常与 Google Cloud 搭配使用。Apache Spark 和 Apache Kafka 在 AWS 用户中更常用。
与从事数据分析和数据工程的开发者相比,机器学习专家更常使用 Python、C++ 和 C,而较少使用 SQL 和 PHP。
Python 和 R 更常被教育和科学领域的开发者使用。
Jupyter 更常用于教育和科学。Apache Spark、Apache Kafka、Apache Hadoop 和 Apache Hive 更常用于银行业务。
Apache Spark 用户的最大份额位于中国、印度、韩国、西班牙和拉丁美洲。
感谢您的参与!
我们真诚地希望您能发现我们的报告有用。与您的朋友和同事分享这份报告。
加入 JetBrains Tech Insights Lab
如果您有任何疑问或建议,请发送电子邮件至 surveys@jetbrains.com。