빅데이터

공유하기:

이 섹션의 질문은 데이터 분석, 데이터 엔지니어링, 머신러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자인 개발자에게만 표시되었습니다.

공유하기:

다음 중 어떤 일괄 처리 도구를 사용하시나요?

다음 중 어떤 스트리밍 처리 프레임워크/도구를 사용하시나요?

Spark 에코시스템은 계속해서 일괄 처리 및 스트리밍 처리에 가장 인기 있는 선택입니다.

다음 중 어떤 오케스트레이션 도구를 사용하시나요?

예상대로 Apache Airflow는 특히 데이터 엔지니어에게 가장 인기 있는 오케스트레이션 도구입니다. 흥미롭게도, 사용되는 오케스트레이션 도구의 9%는 사용자 지정 또는 직접 개발한 도구입니다.

다음 중 Spark 실행에 사용하시는 도구는 무엇인가요?

Kubernetes, YARN 및 Amazon EMR은 Spark 실행을 위해 가장 널리 사용되는 클라우드 솔루션입니다. Kubernetes는 해마다 인기가 높아지고 있는 반면, YARN 사용률은 전년 대비 8% 감소했습니다. 기업은 YARN과 같은 별도의 시스템을 사용하기보다 IT 환경의 다른 부분에 데이터 엔지니어링 도구를 포함하는 것을 선호하는 경향이 있습니다.

다음 중 데이터 레이크 구축에 사용하시는 도구는 무엇인가요?

다음 중 어떤 MPP 도구를 사용하시나요?

대다수의 응답자는 MPP 도구를 사용하지 않지만, 그렇게 하는 응답자들은 BigQuery, Redshift 또는 Azure SQL Data Warehouse를 사용하는 경향이 있습니다.

일반적으로 새 클러스터를 만드시나요? 아니면 항상 동일한 클러스터로 작업하시나요?

다음 중 데이터 엔지니어링 작업에 사용하는 엔진은 무엇인가요?

대다수(64%)는 데이터 엔지니어링 작업에 어떤 엔진도 사용하지 않는다고 보고했습니다. 엔진 사용자 중에는 BigQuery, Databricks, AWS Athena의 인기도가 동일하여 각각 10%의 점유율을 차지하며 Amazon EMR, Redshift, AWS Glue 및 Azure Analysis Services가 그 뒤를 바짝 쫓고 있습니다.

메시지 브로커 또는 메시지 큐(예: Kafka, RabbitMQ) 관련 업무를 수행하시나요?

다음 중 데이터 엔지니어링 관련 메시징 및 전달에 사용하시는 도구는 무엇인가요?

Kafka는 데이터 엔지니어링 관련 메시징 및 전달을 위한 가장 인기 있는 선택으로 두드러지며(58%) RabbitMQ가 46%로 그 뒤를 따릅니다. 흥미롭게도, 응답자의 2%만이 메시징이나 전달 도구를 사용하지 않는다고 답했습니다.

데이터 엔지니어링 코드 베이스에서 테스트를 실행하시나요?

어떤 테스트 프레임워크를 사용하시나요?

대부분의 응답자는 엔지니어링 코드 베이스에서 테스트를 실행하지 않습니다. 실행하는 31% 중 가장 큰 비율은 어떤 프레임워크도 사용하지 않거나 Great Expectations를 사용합니다.

빅데이터:

2023

읽어주셔서 감사합니다!

이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.

질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.