빅데이터

공유하기:

이 섹션의 질문은 데이터 분석, 데이터 엔지니어링, 머신러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자인 개발자에게만 표시되었습니다.

공유하기:

다음 중 어떤 일괄 처리 도구를 사용하시나요?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

기타

55%

없음

다음 중 어떤 스트리밍 처리 프레임워크/도구를 사용하시나요?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

기타

64%

없음

Spark 에코시스템은 계속해서 일괄 처리 및 스트리밍 처리에 가장 인기 있는 선택입니다.

다음 중 어떤 오케스트레이션 도구를 사용하시나요?

21%

Airflow

9%

사용자 지정 또는 자체 제작

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

기타

57%

없음

예상대로 Apache Airflow는 특히 데이터 엔지니어에게 가장 인기 있는 오케스트레이션 도구입니다. 흥미롭게도, 사용되는 오케스트레이션 도구의 9%는 사용자 지정 또는 직접 개발한 도구입니다.

다음 중 Spark 실행에 사용하시는 도구는 무엇인가요?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN 및 Amazon EMR은 Spark 실행을 위해 가장 널리 사용되는 클라우드 솔루션입니다. Kubernetes는 해마다 인기가 높아지고 있는 반면, YARN 사용률은 전년 대비 8% 감소했습니다. 기업은 YARN과 같은 별도의 시스템을 사용하기보다 IT 환경의 다른 부분에 데이터 엔지니어링 도구를 포함하는 것을 선호하는 경향이 있습니다.

다음 중 데이터 레이크 구축에 사용하시는 도구는 무엇인가요?

22%

기존 관계형 데이터베이스

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

기타

53%

없음

다음 중 어떤 MPP 도구를 사용하시나요?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

대다수의 응답자는 MPP 도구를 사용하지 않지만, 그렇게 하는 응답자들은 BigQuery, Redshift 또는 Azure SQL Data Warehouse를 사용하는 경향이 있습니다.

일반적으로 새 클러스터를 만드시나요? 아니면 항상 동일한 클러스터로 작업하시나요?

49%

전용 클러스터 없이 작업

30%

개발 작업을 위한 새 클러스터를 생성

18%

중지되지 않는 클러스터 하나에서 모든 작업을 처리

3%

기타

다음 중 데이터 엔지니어링 작업에 사용하는 엔진은 무엇인가요?

64%

엔진을 사용하지 않음

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

대다수(64%)는 데이터 엔지니어링 작업에 어떤 엔진도 사용하지 않는다고 보고했습니다. 엔진 사용자 중에는 BigQuery, Databricks, AWS Athena의 인기도가 동일하여 각각 10%의 점유율을 차지하며 Amazon EMR, Redshift, AWS Glue 및 Azure Analysis Services가 그 뒤를 바짝 쫓고 있습니다.

메시지 브로커 또는 메시지 큐(예: Kafka, RabbitMQ) 관련 업무를 수행하시나요?

다음 중 데이터 엔지니어링 관련 메시징 및 전달에 사용하시는 도구는 무엇인가요?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Kafka는 데이터 엔지니어링 관련 메시징 및 전달을 위한 가장 인기 있는 선택으로 두드러지며(58%) RabbitMQ가 46%로 그 뒤를 따릅니다. 흥미롭게도, 응답자의 2%만이 메시징이나 전달 도구를 사용하지 않는다고 답했습니다.

데이터 엔지니어링 코드 베이스에서 테스트를 실행하시나요?

어떤 테스트 프레임워크를 사용하시나요?

59%

프레임워크를 사용하지 않음

28%

Great Expectations

10%

Deequ

7%

기타

대부분의 응답자는 엔지니어링 코드 베이스에서 테스트를 실행하지 않습니다. 실행하는 31% 중 가장 큰 비율은 어떤 프레임워크도 사용하지 않거나 Great Expectations를 사용합니다.

빅데이터:

2023

읽어주셔서 감사합니다!

이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.

질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.