大数据
分享:
本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。本调查专门针对开发者,因此结果可能无法代表更广泛的大数据受众。
不参与数据管道创建的专业人士使用传统关系数据库构建数据湖。Spark 仍然是最流行的批处理和流处理工具。
不出所料,Apache Airflow 是最受欢迎的编排工具,特别是在数据工程师中。有趣的是,10% 的编排工具是自定义或自建的。
Kubernetes、YARN 和 Amazon EMR 是最流行的 Spark 执行云解决方案。
绝大多数受访者不使用 MPP 工具。BigQuery、Redshift 和 Azure SQL Data Warehouse 是最受欢迎的工具。