Big Data

Compartilhar:

As perguntas desta seção foram mostradas para desenvolvedores envolvidos em análise de dados, engenharia de dados ou aprendizado de máquina e para aqueles com cargos de analista de dados, engenheiro de dados ou cientista de dados.

Compartilhar:

Quais das seguintes ferramentas de processamento em lote você usa?

Quais dos seguintes frameworks ou ferramentas de processamento de streaming você usa?

O ecossistema do Spark continua sendo a escolha mais popular para processamento em lotes e de streaming.

Quais das seguintes ferramentas de orquestração você usa?

Previsivelmente, o Apache Airflow é a ferramenta de orquestração mais popular, especialmente entre os engenheiros de dados. Curiosamente, 9% das ferramentas de orquestração são personalizadas ou de desenvolvimento próprio.

Quais das seguintes ferramentas você usa para execução no Spark?

Kubernetes, YARN e Amazon EMR são as soluções de nuvem mais populares para a execução do Spark. O Kubernetes vem ganhando popularidade a cada ano, enquanto o uso do YARN vem diminuindo 8% a cada ano. As empresas tendem a preferir incluir ferramentas de engenharia de dados em outras partes do cenário de TI, em vez de usarem sistemas separados como o YARN.

Quais das seguintes ferramentas você usa para criar data lakes?

Quais das seguintes ferramentas de MPP você usa?

A maioria dos que responderam não usa ferramentas de processamento maciçamente paralelo (MPP), mas aqueles que as usam tendem a adotar o BigQuery, o Redshift ou o Azure SQL Data Warehouse.

Você costuma criar novos clusters ou sempre trabalha com o mesmo cluster?

Quais dos seguintes mecanismos você usa nas suas tarefas de engenharia de dados?

Uma maioria significativa (64%) relatou não usar nenhum mecanismo em suas tarefas de engenharia de dados. Dentre os usuários de mecanismos, o BigQuery, o Databricks e o AWS Athena são igualmente populares, com uma parcela de 10% cada um, seguidos de perto pelo Amazon EMR, Redshift, AWS Glue e Azure Analysis Services.

Você trabalha com brokers ou filas de mensagens (por exemplo, Kafka, RabbitMQ, etc.)?

Quais das seguintes ferramentas você usa para mensagens e entregas relacionadas à engenharia de dados?

O Kafka se destaca como a escolha mais popular para mensagens e entregas em engenharia de dados (58%), seguido pelo RabbitMQ com 46%. Curiosamente, apenas 2% dos participantes afirmaram que não usam nenhuma ferramenta de mensageria e entregas.

Você executa testes na sua base de código de engenharia de dados?

Quais frameworks de teste você usa?

A maioria dos que responderam não executa testes na sua base de código de engenharia. Dentre os 31% que executam esses testes, a maior parte ou não usa nenhum framework, ou usa o Great Expectations.

Big Data:

2023

Obrigado pelo seu tempo!

Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.

Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.