Ciência de Dados
Compartilhar:
As perguntas nesta seção foram mostradas para desenvolvedores envolvidos em Business Intelligence, Análises de Dados, Engenharia de Dados, Machine Learning ou para aqueles cuja função era Analista de Dados/Engenheiro de Dados/Cientista de Dados ou Analista Empresarial.
Um grande número de entrevistados combina responsabilidades de ciência de dados com outras atividades. Esses resultados indicam que houve uma democratização da esfera e que há potencial para crescimento do mercado.
Na JetBrains, criamos o Datalore, uma plataforma colaborativa de ciência de dados para equipes. Ao fornecer uma excelente experiência de programação para profissionais de dados, o Datalore também traz automações sem código para workflows de exploração e visualização de dados. Isso significa que até mesmo usuários não técnicos podem gerar relatórios ad hoc e visualização de dados na mesma ferramenta que a equipe de dados principal.
Cargos de especialistas especializados em dados, como Cientista de Dados, Engenheiro de Dados e Engenheiro de Machine Learning, são relativamente novos. Muitos dos nossos entrevistados fizeram a transição para essas funções depois de trabalhar ou treinar em áreas adjacentes e, portanto, tiveram que aprimorar suas habilidades através de estudos independentes ou cursos online. Embora os diplomas de pós-graduação em STEM (ciência, tecnologia, engenharia e matemática) tenham sido tradicionalmente o caminho mais comum para a ciência de dados ou o machine learning, as tendências dos últimos sete anos mostram que um número cada vez maior de pessoas que trabalham nessas áreas ingressou com um diploma de bacharel, passando de <0>20%< /0> em 2015 para 31% em 2021. À medida que aumenta o número de formandos em novos programas de graduação especializados em dados, é possível que veremos esses resultados mudando em favor de pessoas que obtiveram essas habilidades através da educação formal.
Os notebooks Jupyter venceram como o editor preferido para trabalhos de análise e ciência de dados, com cerca de 40% dos entrevistados indicando que usaram notebooks para essas atividades. Esse resultado foi ainda maior entre os entrevistados que relataram fazer coleta e visualização de dados, análises exploratórias de dados ou modelagem de machine learning, com 70% indicando que usam notebooks Jupyter.
Saiba mais sobre este tópico na nossa pesquisa recente. Descobrimos que, de 2019 a 2020, o número de notebooks Python 3 cresceu 87%, enquanto o número de notebooks Python 2 aumentou 12%.
Os notebooks Jupyter continuam sendo uma das ferramentas de escolha mais populares, usados por 42% dos entrevistados, dos quais mais da metade citam o trabalho com dados como sua principal atividade. Eles são usados principalmente para trabalhos exploratórios, como explorar dados e criar protótipos de modelos. No entanto, mesmo entre aqueles que trabalham principalmente como especialistas em dados, apenas uma minoria dos entrevistados usa notebooks por mais de 40% do tempo de trabalho.
A porcentagem daqueles que versionam seus notebooks é bastante grande, o que é um bom sinal, pois indica que uma grande proporção de profissionais de dados vê os notebooks como um código que precisa ser mantido. As ferramentas mais populares entre aqueles que versionam seus notebooks são o Git e o GitHub.
O controle de versão dos notebooks Jupyter por meio da interface de linha de comando (CLI) do Git pode ser difícil. Felizmente, o DataSpell possui uma grande variedade de recursos para trabalhar com o Git, facilitando a execução de tarefas básicas por meio da UI, como configurar um repositório, adicionar e enviar notebooks e visualizar diferenças entre confirmações de notebooks, tudo sem ter que lembrar de um único comando Git! Confira este artigo para saber mais sobre como usar o Git com notebooks Jupyter no DataSpell.
Além dos arquivos locais, os bancos de dados SQL continuam sendo as fontes de dados mais usadas entre os especialistas em dados.
Com o Datalore, você pode transformar notebooks Jupyter em belos aplicativos de dados em poucos segundos. Organize as células na tela e publique o resultado no modo Estático ou Interativo. Os membros do seu projeto poderão acessar o relatório por meio de um link.
Ver um relatórioOs principais algoritmos de machine learning, como regressão e métodos baseados em árvore, continuam a ser amplamente usados. No entanto, a maioria dos entrevistados também utiliza redes neurais, principalmente arquiteturas de transformadores. A crescente facilidade de uso e a popularidade cada vez maior das redes de transformadores também podem explicar por que mais de um quarto dos entrevistados relataram fazer trabalho de PNL. Curiosamente, apenas um quinto dos entrevistados relatou usar testes estatísticos como parte do trabalho, sugerindo que o machine learning e o deep learning ultrapassaram a estatística clássica como habilidade fundamental de dados.
O TensorFlow foi a framework de aprendizado profundo mais popular entre todos os entrevistados, embora ele e o PyTorch tenham sido igualmente usados pelos entrevistados que trabalham com dados como atividade principal. A Scikit-learn foi a biblioteca de machine learning mais popular, embora pacotes e frameworks especializadas para modelagem baseada em árvore, como XGBoost e LightGBM, tenham sido usados por uma notável minoria de participantes.
Os serviços da Amazon são as soluções de nuvem corporativa mais populares.
A maioria dos respondentes, 70%, trabalha em pequenos grupos com no máximo 10 pessoas em uma equipe. Um em cada cinco trabalha em uma equipe com mais de 15 especialistas em dados.
Quase 50% das equipes ou departamentos têm uma função dedicada de Engenheiro de Dados.
Pouco mais de 50% dos entrevistados relataram que suas equipes têm engenheiros especializados em dados ou engenheiros de machine learning. Tanto Engenheiro de Dados como Engenheiro de ML são cargos abrangentes que podem variar muito dependendo da empresa. Portanto, é possível que as pessoas em qualquer uma dessas funções sejam responsáveis por tarefas semelhantes relacionadas a machine learning, como implantação de modelos e gerenciamento de pipelines de dados. Não é de surpreender que, quanto maior uma equipe, maior a probabilidade de ela ter pessoas trabalhando em uma dessas funções. Mais de 80% dos entrevistados em equipes de dados com 1 a 2 membros não tinham um engenheiro de dados dedicado nem um engenheiro de ML, enquanto 79% dos entrevistados em equipes de dados com mais de 15 pessoas tinham engenheiros de dados dedicados e 65% tinham engenheiros de ML dedicados.
Pouco menos da metade dos entrevistados treina modelos de machine learning ou deep learning, e esse número sobe para 60% entre aqueles que realizam trabalhos de dados como principal atividade. Isso sugere que a modelagem preditiva está se tornando um componente central do trabalho com dados no setor.
A maioria dos entrevistados indicou que usa GPUs para treinar seus modelos de machine learning ou deep learning. As necessidades de VRAM diferem dependendo de como os entrevistados trabalham com os dados. 40% dos entrevistados que trabalham com dados como hobby ou para fins educacionais indicaram que 8 GB são suficientes, em comparação com apenas 18% daqueles cujo trabalho com dados é a atividade principal.
A maioria dos entrevistados indicou que gasta até 20 horas por semana treinando modelos, o que pode incluir o tempo que os modelos passam treinando durante a noite. Quase um terço gasta 5 horas por semana ou menos treinando modelos. Isso é consistente com os resultados anteriores, que mostram que o treinamento de modelos é uma parte relativamente pequena do trabalho de ciência de dados, com a maior parte do tempo gasta na preparação e exploração dos dados.
Consistente com outras respostas em nossa pesquisa, mostrando que a principal atividade realizada em notebooks é a exploração e a visualização de dados e que a maioria dos entrevistados trabalha com arquivos locais, a maioria dos entrevistados também usa recursos locais para concluir seus trabalhos de ciência de dados. Surpreendentemente, isso não diferiu muito dependendo da técnica de trabalho com dados dos entrevistados. As pessoas que trabalham com dados como sua atividade principal têm a mesma probabilidade de usar recursos locais do que aquelas que o fazem como hobby ou para fins educacionais.
A maioria dos entrevistados disse não usar nenhuma ferramenta para acompanhar o desempenho de seus experimentos de treinamento de modelos. No entanto, o uso dessas ferramentas era muito mais provável em equipes de dados compostas por 15 ou mais pessoas (58% dos entrevistados dessas equipes usam pelo menos uma), quando a equipe tem um engenheiro de machine learning dedicado (62%) ou quando o entrevistado estava envolvido na modelagem de machine learning e no trabalho de operações de ML (63%). Isso indica que esse tipo de ferramenta tende a ser usado em ambientes onde há conhecimento especializado referente ao desenvolvimento de modelos de machine learning.
Gráficos simples mas significativos para explorar e apresentar dados foram usados pela maioria dos especialistas em dados. Esses gráficos foram usados pela maioria dos entrevistados, independentemente do tipo de atividade de dados em que estavam envolvidos, desde coleta de dados e análise exploratória de dados até orquestração de dados e operações de ML.
Obrigado pelo seu tempo!
Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.
Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.