Büyük Veri

Paylaş:

Bu bölümdeki sorular Veri Analizi, Veri Mühendisliği, Makine Öğrenimi alanlarında çalışan ya da Veri Analisti / Veri Mühendisi / Veri Bilimcisi iş rolünde görev üstlenen geliştiricilere gösterildi.

Paylaş:

Aşağıdaki toplu işleme araçlarından hangilerini kullanıyorsunuz?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

Diğer

55%

Hiç

Aşağıdaki akış işleme çerçevelerinden/araçlarından hangilerini kullanıyorsunuz?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

Diğer

64%

Hiç

Spark ekosistemi, toplu işlemler ve akış işleme için en popüler seçim olmaya devam ediyor.

Aşağıdaki akış düzenleme araçlarından hangilerini kullanıyorsunuz?

21%

Airflow

9%

Özel veya kendi kendine

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

Diğer

57%

Hiç

Tahmin edilebileceği gibi, Apache Airflow özellikle veri mühendisleri arasında en popüler düzenleme aracı. Kullanılan düzenleme araçlarının %9'unun özel veya kendi ürettikleri araç olması ise şaşırtıcı.

Spark çalıştırmak için aşağıdaki araçlardan hangilerini kullanıyorsunuz?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN ve Amazon EMR, Spark yürütme için en popüler bulut çözümleridir. Kubernetes her geçen yıl daha popüler hâle gelirken, YARN kullanımı yıllar içinde yüzde %8 puan azaldı. Şirketler, YARN gibi ayrı sistemler kullanmak yerine, veri mühendisliği araçlarını BT ortamının diğer bölümlerine dâhil etmeyi tercih etme eğiliminde.

Veri gölleri oluşturmak için aşağıdaki araçlardan hangilerini kullanıyorsunuz?

22%

Geleneksel ilişkisel veri tabanları

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

Diğer

53%

Hiç

Aşağıdaki MPP araçlarından hangilerini kullanıyorsunuz?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

Katılımcıların çoğunluğu MPP araçlarını kullanmıyor ancak kullananlar BigQuery, Redshift veya Azure SQL Data Warehouse kullanmayı tercih ediyor.

Genellikle yeni kümeler mi oluşturuyorsunuz yoksa her zaman aynı kümeyle mi çalışıyorsunuz?

49%

Özel bir küme olmadan çalışıyorum

30%

Geliştirme görevlerim için yeni kümeler oluşturuyorum

18%

İşimi tamamını hiç durmayan bir kümede yapıyorum

3%

Diğer

Veri mühendisliği görevleriniz için aşağıdaki motorlardan hangisini kullanıyorsunuz?

64%

Herhangi bir motor kullanmıyorum

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

Önemli bir çoğunluk (%64) veri mühendisliği görevleri için herhangi bir motor kullanmadığını bildirdi. Motor kullanıcıları arasında BigQuery, Databricks ve AWS Athena her biri %10 paya sahip olmak üzere eşit derecede popülerdir. Amazon EMR, Redshift, AWS Glue ve Azure Analysis Services de bu motorları yakından takip ediyor.

Mesaj broker'ları veya mesaj sıraları (ör. Kafka, RabbitMQ) ile çalışıyor musunuz?

Veri mühendisliğiyle ilişkili mesajlaşma ve dağıtım için aşağıdaki araçlardan hangilerini kullanıyorsunuz?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

Kafka, veri mühendisliğiyle ilişkili mesajlaşma ve dağıtım konusunda en popüler tercih (%58) olarak öne çıkarken, RabbitMQ %46 ile onu takip ediyor. Katılımcıların yalnızca %2'sinin herhangi bir mesajlaşma veya dağıtım aracı kullanmaması ise şaşırtıcı.

Veri mühendisliği kod tabanınızda testler yapıyor musunuz?

Hangi test çerçevelerini kullanıyorsunuz?

59%

Çerçeve kullanmıyorum

28%

Great Expectations

10%

Deequ

7%

Diğer

Katılımcıların büyük bir kısmı mühendislik kod tabanlarında test yürütmüyor. Test yürütenlerin %31'i arasında, en büyük oran ya herhangi bir çerçeve kullanmıyor ya da Great Expectations'tan yararlanıyor.

Büyük Veri:

2023

Zaman ayırdığınız için teşekkür ederiz!

Raporumuzu faydalı bulduğunuzu umuyoruz. Bu raporu arkadaşlarınızla ve meslektaşlarınızla paylaşın.

Herhangi bir soru ya da öneriniz varsa lütfen bizimle surveys@jetbrains.com adresinden iletişime geçin.