Big Data

Compartilhar:

As perguntas desta seção foram mostradas para desenvolvedores envolvidos em análise de dados, engenharia de dados ou aprendizado de máquina e para aqueles com cargos de analista de dados, engenheiro de dados ou cientista de dados.

Compartilhar:

Quais das seguintes ferramentas de processamento em lote você usa?

30%

Spark

14%

Hadoop MapReduce

12%

Hive

7%

Dask

3%

Pig

2%

Tez

3%

Outros

55%

Nenhuma opção

Quais dos seguintes frameworks ou ferramentas de processamento de streaming você usa?

18%

Spark Streaming

9%

Flink

6%

Storm

5%

Dask

5%

Beam

4%

NiFi

3%

Samza

3%

Outros

64%

Nenhuma opção

O ecossistema do Spark continua sendo a escolha mais popular para processamento em lotes e de streaming.

Quais das seguintes ferramentas de orquestração você usa?

21%

Airflow

9%

Personalizada ou desenvolvida internamente

7%

Apache Oozie

6%

Apache NiFi

5%

Dolphin

4%

Dagster

3%

Prefect

2%

Luigi

3%

Outros

57%

Nenhuma opção

Previsivelmente, o Apache Airflow é a ferramenta de orquestração mais popular, especialmente entre os engenheiros de dados. Curiosamente, 9% das ferramentas de orquestração são personalizadas ou de desenvolvimento próprio.

Quais das seguintes ferramentas você usa para execução no Spark?

37%

45%

Kubernetes

30%

22%

YARN

27%

24%

Amazon EMR

11%

11%

Google Dataproc

9%

9%

Azure HDInsight

Kubernetes, YARN e Amazon EMR são as soluções de nuvem mais populares para a execução do Spark. O Kubernetes vem ganhando popularidade a cada ano, enquanto o uso do YARN vem diminuindo 8% a cada ano. As empresas tendem a preferir incluir ferramentas de engenharia de dados em outras partes do cenário de TI, em vez de usarem sistemas separados como o YARN.

Quais das seguintes ferramentas você usa para criar data lakes?

22%

Bancos de dados relacionais tradicionais

12%

Delta Lake

6%

Iceberg

6%

Hudi

5%

dbt

4%

MPP

6%

Outros

53%

Nenhuma opção

Quais das seguintes ferramentas de MPP você usa?

15%

13%

BigQuery

13%

11%

Redshift

11%

8%

Azure SQL Data Warehouse

9%

10%

Azure Data Explorer

5%

4%

ClickHouse

A maioria dos que responderam não usa ferramentas de processamento maciçamente paralelo (MPP), mas aqueles que as usam tendem a adotar o BigQuery, o Redshift ou o Azure SQL Data Warehouse.

Você costuma criar novos clusters ou sempre trabalha com o mesmo cluster?

49%

Trabalho sem um cluster dedicado

30%

Crio novos clusters para minhas tarefas de desenvolvimento

18%

Eu faço todo o meu trabalho em um cluster que nunca para

3%

Outros

Quais dos seguintes mecanismos você usa nas suas tarefas de engenharia de dados?

64%

Não uso mecanismos

10%

BigQuery

10%

Databricks

10%

AWS Athena

9%

Amazon EMR

9%

Redshift

8%

AWS Glue

Uma maioria significativa (64%) relatou não usar nenhum mecanismo em suas tarefas de engenharia de dados. Dentre os usuários de mecanismos, o BigQuery, o Databricks e o AWS Athena são igualmente populares, com uma parcela de 10% cada um, seguidos de perto pelo Amazon EMR, Redshift, AWS Glue e Azure Analysis Services.

Você trabalha com brokers ou filas de mensagens (por exemplo, Kafka, RabbitMQ, etc.)?

Quais das seguintes ferramentas você usa para mensagens e entregas relacionadas à engenharia de dados?

58%

Kafka

46%

RabbitMQ

18%

Amazon SQS

9%

Amazon Kinesis

8%

ActiveMQ

7%

RocketMQ

6%

Pulsar

O Kafka se destaca como a escolha mais popular para mensagens e entregas em engenharia de dados (58%), seguido pelo RabbitMQ com 46%. Curiosamente, apenas 2% dos participantes afirmaram que não usam nenhuma ferramenta de mensageria e entregas.

Você executa testes na sua base de código de engenharia de dados?

Quais frameworks de teste você usa?

59%

Não uso frameworks

28%

Great Expectations

10%

Deequ

7%

Outros

A maioria dos que responderam não executa testes na sua base de código de engenharia. Dentre os 31% que executam esses testes, a maior parte ou não usa nenhum framework, ou usa o Great Expectations.

Big Data:

2023

Obrigado pelo seu tempo!

Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.

Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.