빅데이터
공유하기:
이 섹션의 질문은 데이터 분석, 데이터 엔지니어링, 머신러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자인 개발자에게만 표시되었습니다.
공유하기:
예상대로 Apache Airflow는 특히 데이터 엔지니어에게 가장 인기 있는 오케스트레이션 도구입니다. 흥미롭게도, 사용되는 오케 스트레이션 도구의 9%는 사용자 지정 또는 직접 개발한 도구입니다.
Kubernetes, YARN 및 Amazon EMR은 Spark 실행을 위해 가장 널리 사용되는 클라우드 솔루션입니다. Kubernetes는 해마다 인기가 높아지고 있는 반면, YARN 사용률은 전년 대비 8% 감소했습니다. 기업은 YARN과 같은 별도의 시스템을 사용하기보다 IT 환경의 다른 부분에 데이터 엔지니어링 도구를 포함하는 것을 선호하는 경향이 있습니다.
대다수의 응답자는 MPP 도구를 사용하지 않지만, 그렇게 하는 응답자들은 BigQuery, Redshift 또는 Azure SQL Data Warehouse를 사용하는 경향이 있습니다.
대다수(64%)는 데이터 엔지니어링 작업에 어떤 엔진도 사용하지 않는다고 보고했습니다. 엔진 사용자 중에는 BigQuery, Databricks, AWS Athena의 인기도가 동일하여 각각 10%의 점유율을 차지하며 Amazon EMR, Redshift, AWS Glue 및 Azure Analysis Services가 그 뒤를 바짝 쫓고 있습니다.
Kafka는 데이터 엔지니어링 관련 메시징 및 전달을 위한 가장 인기 있는 선택으로 두드러지며(58%) RabbitMQ가 46% 로 그 뒤를 따릅니다. 흥미롭게도, 응답자의 2%만이 메시징이나 전달 도구를 사용하지 않는다고 답했습니다.
대부분의 응답자는 엔지니어링 코드 베이스에서 테스트를 실행하지 않습니다. 실행하는 31% 중 가장 큰 비율은 어떤 프레임워크도 사용하지 않거나 Great Expectations를 사용합니다.
읽어주셔서 감사합니다!
이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.
질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.