Big Data
Compartilhar:
As perguntas desta seção foram mostradas para desenvolvedores envolvidos em análise de dados, engenharia de dados ou aprendizado de máquina e para aqueles com cargos de analista de dados, engenheiro de dados ou cientista de dados.
Compartilhar:
Previsivelmente, o Apache Airflow é a ferramenta de orquestração mais popular, especialmente entre os engenheiros de dados. Curiosamente, 9% das ferramentas de orquestração são personalizadas ou de desenvolvimento próprio.
Kubernetes, YARN e Amazon EMR são as soluções de nuvem mais populares para a execução do Spark. O Kubernetes vem ganhando popularidade a cada ano, enquanto o uso do YARN vem diminuindo 8% a cada ano. As empresas tendem a preferir incluir ferramentas de engenharia de dados em outras partes do cenário de TI, em vez de usarem sistemas separados como o YARN.
A maioria dos que responderam não usa ferramentas de processamento maciçamente paralelo (MPP), mas aqueles que as usam tendem a adotar o BigQuery, o Redshift ou o Azure SQL Data Warehouse.
Uma maioria significativa (64%) relatou não usar nenhum mecanismo em suas tarefas de engenharia de dados. Dentre os usuários de mecanismos, o BigQuery, o Databricks e o AWS Athena são igualmente populares, com uma parcela de 10% cada um, seguidos de perto pelo Amazon EMR, Redshift, AWS Glue e Azure Analysis Services.
O Kafka se destaca como a escolha mais popular para mensagens e entregas em engenharia de dados (58%), seguido pelo RabbitMQ com 46%. Curiosamente, apenas 2% dos participantes afirmaram que não usam nenhuma ferramenta de mensageria e entregas.
A maioria dos que responderam não executa testes na sua base de código de engenharia. Dentre os 31% que executam esses testes, a maior parte ou não usa nenhum framework, ou usa o Great Expectations.
Obrigado pelo seu tempo!
Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.
Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.