大数据
分享:
本部分中的问题向参与数据分析、数据工程、机器学习的开发者,或工作职责为数据分析师/数据工程师/数据科学家的人员显示。
分享:
不出所料,Apache Airflow 是最受欢迎的编排工具,特别是在数据工程师中。有趣的是,9% 的编排工具是自定义或自建的。
Kubernetes、YARN 和 Amazon EMR 是最受欢迎的 Spark 执行云解决方案。Kubernetes 的受欢迎程度逐年上升,而 YARN 的使用率却同比下降 8 个百分点。公司倾向于将数据工程工具纳入 IT 领域的其他部分,而不是使用类似于 YARN 的单独系统。
大多数受访者不使用 MPP 工具,但使用的受访者倾向于使用 BigQuery、Redshift 或 Azure SQL Data Warehouse。
绝大多数 (64%) 表示不使用引擎来完成数据工程任务。在引擎用户中,BigQuery、Databricks 和 AWS Athena 的受欢迎程度相同,各占 10%。Amazon EMR、Redshift、AWS Glue 和 Azure Analysis Services 紧随其后。
Kafka 成为数据工程相关消息传递和递送最受欢迎的选择 (58%),RabbitMQ 紧随其后,占 46%。有趣的是,只有 2% 的受访者表示不使用任何消息传递或递送工具。
大多数受访者不在工程代码库中运行测试。在 31% 运行的人中,最大比例要么不使用任何框架,要么使用 Great Expectations。