Ciência de Dados
Compartilhar:
As perguntas nesta seção foram mostradas para desenvolvedores envolvidos em Business Intelligence, Análises de Dados, Engenharia de Dados, Machine Learning ou para aqueles cuja função era Analista de Dados/Engenheiro de Dados/Cientista de Dados ou Analista Empresarial.
Um número considerável dos que responderam parece estar fazendo malabarismos entre suas responsabilidades de ciência de dados e outras atividades. Estes achados sugerem que está ocorrendo uma democratização da área, o que implica oportunidades em potencial para o crescimento do mercado de ciência de dados.
PyCharm
Um IDE Python completo para criar pipelines de dados, analisar dados, criar protótipos e implantar modelos de ML com excelente suporte para Python, bibliotecas científicas, notebooks Jupyter interativos, Anaconda, bancos de dados SQL e NoSQL e muito mais.
A maioria dos profissionais de ciência de dados valoriza o uso de gráficos consagrados para a exploração e apresentação de dados. Esses tipos de gráficos são amplamente usados em várias tarefas relacionadas a dados, como reunião de dados, análise exploratória de dados, orquestração de dados e ML Ops.
Datalore
O Datalore é uma plataforma colaborativa da JetBrains para ciência e análise de dados, que pode ser acessada diretamente do navegador. Os notebooks do Datalore são compatíveis com os do Jupyter e oferecem assistência inteligente à codificação para notebooks do Python, SQL, R e Scala, além de visualizações "no-code" e disputa de dados. O gerador de relatórios do Datalore permite que as equipes transformem notebooks cheios de código e experimentos em um histórico claro e orientado a dados. As equipes podem compartilhar notebooks, editá-los em conjunto em tempo real e organizar seus projetos em espaços de trabalho.
Quase metade das equipes ou departamentos tem um engenheiro de dados ou de aprendizado de máquina em tempo integral.
Funções especializadas, como cientista de dados, engenheiro de dados e engenheiro de aprendizado de máquina, são adições relativamente recentes no mercado de trabalho. Muitos dos que responderam estão em transição para essas funções a partir de áreas relacionadas e precisam adquirir novas habilidades por estudo próprio ou cursos on-line.
Embora a maioria dos profissionais de ciência de dados não controle as versões dos seus notebooks, uma parcela substancial (41%) escolhe fazer isso e a maioria destes escolhe o Git ou o GitHub para o controle de versões.
Várias implementações de notebooks do Jupyter são muito populares em ciência de dados. Alguns casos comuns de uso são a análise exploratória de dados, a experimentação com dados e com a consulta a eles e a prototipagem de modelos. Aproximadamente 40% dos profissionais de ciência de dados usam notebooks do Jupyter para apresentar os resultados do seu trabalho, mas é interessante observar que muitos (quase 50%) usam notebooks do Jupyter em apenas 10%–20% do seu tempo.
Embora a maioria use arquivos locais, a parcela dos que usam bancos de dados SQL aumentou 10 pontos percentuais no último ano, realçando a importância do SQL para a ciência de dados.
A maioria dos cientistas de dados na pesquisa processam dados coletados de forma personalizada. Os tipos de dados mais comuns são os transacionais, de séries temporais, gerados por máquina e imagens. Curiosamente, 30% trabalham com dados sintéticos — dados "fabricados" artificialmente, em vez de gerados por eventos do mundo real.
Aproximadamente 40% de todos os que responderam treinam modelos de aprendizado de máquina ou aprendizado profundo. Porém, esta cifra salta para mais de 60% entre aqueles que consideram sua atividade primária como sendo o trabalho com dados. Esta tendência do setor implica que a modelagem preditiva está se tornando o aspecto central do trabalho com dados.
Embora metade dos profissionais de ciência de dados retreine ou atualize seus modelos de aprendizado de máquina pelo menos uma vez por mês, a maioria gasta menos de 20 horas por mês nessa tarefa.
A maioria — 81% — dos profissionais de ciência de dados usa GPUs no treinamento de modelos. O uso eficiente de processadores gráficos pode acelerar o treinamento e assim aumentar o desempenho do modelo, tornando este recurso cada vez mais atraente para pesquisadores e especialistas de dados. Isso também enfatiza a importância e relevância das inovações tecnológicas no mundo do aprendizado de máquina.
Mais poder de computação é uma tendência clara nas tarefas de aprendizado de máquina. Atualmente, quase 80% dos profissionais de ciência de dados usam 16 GB ou mais de VRAM, enquanto a parcela dos que usam 8 GB diminuiu 6 pontos percentuais no último ano.
Os principais algoritmos de aprendizado de máquina, como regressão e métodos baseados em árvore, continuam prevalecendo. No entanto, uma parcela significativa dos profissionais de ciência de dados também adotou as redes neurais. A popularidade e a facilidade de uso cada vez maiores das redes de transformadores também podem explicar por que 30% dos que responderam trabalham com processamento de linguagem natural. Curiosamente, apenas 24% dos entrevistados relataram que usam testes estatísticos em seu trabalho, indicando que o aprendizado de máquina e o aprendizado profundo passaram à frente da estatística clássica como habilidades fundamentais para dados.
Os serviços da Amazon destacam-se como as soluções mais populares de nuvem corporativa. Notavelmente, houve um aumento significativo (de mais de 10 pontos percentuais) na adoção de soluções corporativas de aprendizado de máquina, em comparação com o ano anterior.
O TensorFlow fica ligeiramente à frente do scikit-learn e do PyTorch em popularidade, com o Keras e o XGBoost também mostrando taxas sólidas de adoção. É interessante observar que uma parcela significativa dos que responderam (19%) informou não usar nenhum framework específico.
O TensorBoard é a ferramenta mais usada, com uma parcela de 23%, seguida do MLFlow, com 10%, e do WandB, com 7%. Porém, dois terços dos profissionais de ciência de dados não estão usando nenhuma ferramenta específica para rastrear seus experimentos de treinamento de modelos.
O aprendizado de máquina e a IA tornaram-se componentes cruciais da vida diária dos negócios. Portanto, não é nenhuma surpresa que quase metade dos que responderam use vários recursos baseados em IA integrados ao software que eles usam.
A qualidade de dados é um problema típico para profissionais e organizações que trabalham com dados, pois quase 50% dedicam 30% ou mais do seu tempo à preparação de dados. Um estudo da Anaconda também confirma que a limpeza de dados está emergindo como o aspecto mais demorado do fluxo de trabalho dos profissionais de dados. Quase metade dos nossos participantes escolhe ambientes de desenvolvimento integrado (IDEs) para lidar com esses tipos de tarefas.
Obrigado pelo seu tempo!
Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.
Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.