빅데이터
공유하기:
이 섹션의 질문은 데이터 분석, 데이터 엔지니어링, 머신러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자인 개발자에게만 표시되었습니다.
공유하기:
예상대로 Apache Airflow는 특히 데이터 엔지니어에게 가장 인기 있는 오케스트레이션 도구입니다. 흥미롭게도, 사용되는 오케스트레이션 도구의 9%는 사용자 지정 또는 직접 개발한 도구입니다.
37%
45%
Kubernetes
30%
22%
YARN
27%
24%
Amazon EMR
11%
11%
Google Dataproc
9%
9%
Azure HDInsight
Kubernetes, YARN 및 Amazon EMR은 Spark 실행을 위해 가장 널리 사용되는 클라우드 솔루션입니다. Kubernetes는 해마다 인기가 높아지고 있는 반면, YARN 사용률은 전년 대비 8% 감소했습니다. 기업은 YARN과 같은 별도의 시스템을 사용하기보다 IT 환경의 다른 부분에 데이터 엔지니어링 도구를 포함하는 것을 선호하는 경향이 있습니다.
15%
13%
BigQuery
13%
11%
Redshift
11%
8%
Azure SQL Data Warehouse
9%
10%
Azure Data Explorer
5%
4%
ClickHouse
대다수의 응답자는 MPP 도구를 사용하지 않지만, 그렇게 하는 응답자들은 BigQuery, Redshift 또는 Azure SQL Data Warehouse를 사용하는 경향이 있습니다.
전용 클러스터 없이 작업
개발 작업을 위한 새 클러스터를 생성
중지되지 않는 클러스터 하나에서 모든 작업을 처리
기타
대다수(64%)는 데이터 엔지니어링 작업에 어떤 엔진도 사용하지 않는다고 보고했습니다. 엔진 사용자 중에는 BigQuery, Databricks, AWS Athena의 인기도가 동일하여 각각 10%의 점유율을 차지하며 Amazon EMR, Redshift, AWS Glue 및 Azure Analysis Services가 그 뒤를 바짝 쫓고 있습니다.
Kafka는 데이터 엔지니어링 관련 메시징 및 전달을 위한 가장 인기 있는 선택으로 두드러지며(58%) RabbitMQ가 46%로 그 뒤를 따릅니다. 흥미롭게도, 응답자의 2%만이 메시징이나 전달 도구를 사용하지 않는다고 답했습니다.
프레임워크를 사용하지 않음
Great Expectations
Deequ
기타
대부분의 응답자는 엔지니어링 코드 베이스에서 테스트를 실행하지 않습니다. 실행하는 31% 중 가장 큰 비율은 어떤 프레임워크도 사용하지 않거나 Great Expectations를 사용합니다.
읽어주셔서 감사합니다!
이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.
질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.