Ciência de Dados

Compartilhar:

As perguntas nesta seção foram mostradas para desenvolvedores envolvidos em Business Intelligence, Análises de Dados, Engenharia de Dados, Machine Learning ou para aqueles cuja função era Analista de Dados/Engenheiro de Dados/Cientista de Dados ou Analista Empresarial.

Que tipo de atividade são a ciência de dados, a análise de dados e o aprendizado de máquina para você?

Um número considerável dos que responderam parece estar fazendo malabarismos entre suas responsabilidades de ciência de dados e outras atividades. Estes achados sugerem que está ocorrendo uma democratização da área, o que implica oportunidades em potencial para o crescimento do mercado de ciência de dados.

Sua equipe ou departamento de dados tem uma função dedicada de engenheiro de machine learning?

PyCharm

Um IDE Python completo para criar pipelines de dados, analisar dados, criar protótipos e implantar modelos de ML com excelente suporte para Python, bibliotecas científicas, notebooks Jupyter interativos, Anaconda, bancos de dados SQL e NoSQL e muito mais.

Que tipos de dados você analisa?

Em quais das seguintes atividades você está envolvido?

Qual tipo de gráfico você usa mais para visualizações de dados?

A maioria dos profissionais de ciência de dados valoriza o uso de gráficos consagrados para a exploração e apresentação de dados. Esses tipos de gráficos são amplamente usados em várias tarefas relacionadas a dados, como reunião de dados, análise exploratória de dados, orquestração de dados e ML Ops.

Datalore

O Datalore é uma plataforma colaborativa da JetBrains para ciência e análise de dados, que pode ser acessada diretamente do navegador. Os notebooks do Datalore são compatíveis com os do Jupyter e oferecem assistência inteligente à codificação para notebooks do Python, SQL, R e Scala, além de visualizações "no-code" e disputa de dados. O gerador de relatórios do Datalore permite que as equipes transformem notebooks cheios de código e experimentos em um histórico claro e orientado a dados. As equipes podem compartilhar notebooks, editá-los em conjunto em tempo real e organizar seus projetos em espaços de trabalho.

Sua equipe ou departamento de dados tem uma função dedicada de engenheiro de dados?

Quase metade das equipes ou departamentos tem um engenheiro de dados ou de aprendizado de máquina em tempo integral.

Como você aprendeu ciência de dados, machine learning ou engenharia de dados?

Funções especializadas, como cientista de dados, engenheiro de dados e engenheiro de aprendizado de máquina, são adições relativamente recentes no mercado de trabalho. Muitos dos que responderam estão em transição para essas funções a partir de áreas relacionadas e precisam adquirir novas habilidades por estudo próprio ou cursos on-line.

Incluindo você, quantos membros tem a sua equipe de dados?

Mais de 50% dos que trabalham com dados estão em equipes de cinco ou mais pessoas.

Quais IDEs ou editores você usa para ciência de dados ou análise de dados?

Quanto do seu tempo de trabalho é gasto dentro de notebooks?

Para que você utiliza notebooks?

Você controla versões nos seus notebooks?

Que ferramentas de controle de versão você utiliza?

Embora a maioria dos profissionais de ciência de dados não controle as versões dos seus notebooks, uma parcela substancial (41%) escolhe fazer isso e a maioria destes escolhe o Git ou o GitHub para o controle de versões.

Que ferramentas você utiliza para apresentar os resultados da sua pesquisa?

Várias implementações de notebooks do Jupyter são muito populares em ciência de dados. Alguns casos comuns de uso são a análise exploratória de dados, a experimentação com dados e com a consulta a eles e a prototipagem de modelos. Aproximadamente 40% dos profissionais de ciência de dados usam notebooks do Jupyter para apresentar os resultados do seu trabalho, mas é interessante observar que muitos (quase 50%) usam notebooks do Jupyter em apenas 10%–20% do seu tempo.

Que tipos de recursos computacionais você utiliza para tarefas de ciência de dados?

A maioria dos que responderam usa recursos locais em seu trabalho de ciência de dados.

Com que tipos de fontes de dados você trabalha?

Embora a maioria use arquivos locais, a parcela dos que usam bancos de dados SQL aumentou 10 pontos percentuais no último ano, realçando a importância do SQL para a ciência de dados.

Que tipo de dados você usa mais?

Você usa dados sintéticos no seu trabalho?

A maioria dos cientistas de dados na pesquisa processam dados coletados de forma personalizada. Os tipos de dados mais comuns são os transacionais, de séries temporais, gerados por máquina e imagens. Curiosamente, 30% trabalham com dados sintéticos — dados "fabricados" artificialmente, em vez de gerados por eventos do mundo real.

Você treina modelos de machine learning ou deep learning?

Aproximadamente 40% de todos os que responderam treinam modelos de aprendizado de máquina ou aprendizado profundo. Porém, esta cifra salta para mais de 60% entre aqueles que consideram sua atividade primária como sendo o trabalho com dados. Esta tendência do setor implica que a modelagem preditiva está se tornando o aspecto central do trabalho com dados.

Com que frequência você retreina ou atualiza os seus modelos de aprendizado de máquina?

Quanto tempo você gasta por mês no treinamento de modelos?

Embora metade dos profissionais de ciência de dados retreine ou atualize seus modelos de aprendizado de máquina pelo menos uma vez por mês, a maioria gasta menos de 20 horas por mês nessa tarefa.

Você utiliza GPUs para treinar seus modelos?

A maioria — 81% — dos profissionais de ciência de dados usa GPUs no treinamento de modelos. O uso eficiente de processadores gráficos pode acelerar o treinamento e assim aumentar o desempenho do modelo, tornando este recurso cada vez mais atraente para pesquisadores e especialistas de dados. Isso também enfatiza a importância e relevância das inovações tecnológicas no mundo do aprendizado de máquina.

De quanta VRAM você geralmente precisa para suas tarefas de machine learning?

Mais poder de computação é uma tendência clara nas tarefas de aprendizado de máquina. Atualmente, quase 80% dos profissionais de ciência de dados usam 16 GB ou mais de VRAM, enquanto a parcela dos que usam 8 GB diminuiu 6 pontos percentuais no último ano.

Que tipos de métodos e algoritmos você utiliza?

Os principais algoritmos de aprendizado de máquina, como regressão e métodos baseados em árvore, continuam prevalecendo. No entanto, uma parcela significativa dos profissionais de ciência de dados também adotou as redes neurais. A popularidade e a facilidade de uso cada vez maiores das redes de transformadores também podem explicar por que 30% dos que responderam trabalham com processamento de linguagem natural. Curiosamente, apenas 24% dos entrevistados relataram que usam testes estatísticos em seu trabalho, indicando que o aprendizado de máquina e o aprendizado profundo passaram à frente da estatística clássica como habilidades fundamentais para dados.

Quais soluções corporativas de machine learning você utiliza?

Os serviços da Amazon destacam-se como as soluções mais populares de nuvem corporativa. Notavelmente, houve um aumento significativo (de mais de 10 pontos percentuais) na adoção de soluções corporativas de aprendizado de máquina, em comparação com o ano anterior.

Quais frameworks de aprendizado de máquina você usa?

O TensorFlow fica ligeiramente à frente do scikit-learn e do PyTorch em popularidade, com o Keras e o XGBoost também mostrando taxas sólidas de adoção. É interessante observar que uma parcela significativa dos que responderam (19%) informou não usar nenhum framework específico.

Que ferramentas você usa para rastrear experimentos de treinamento de modelos?

O TensorBoard é a ferramenta mais usada, com uma parcela de 23%, seguida do MLFlow, com 10%, e do WandB, com 7%. Porém, dois terços dos profissionais de ciência de dados não estão usando nenhuma ferramenta específica para rastrear seus experimentos de treinamento de modelos.

Qual das seguintes alternativas descreve melhor o uso do aprendizado de máquina na sua organização?

O aprendizado de máquina e a IA tornaram-se componentes cruciais da vida diária dos negócios. Portanto, não é nenhuma surpresa que quase metade dos que responderam use vários recursos baseados em IA integrados ao software que eles usam.

Quais soluções corporativas de nuvem você usa?

Quais das seguintes atividades orientadas por dados são mais difíceis para você ou a sua organização executarem?

Em média, qual porcentagem do tempo da sua equipe é gasta gerenciando, limpando ou rotulando dados?

Que ferramentas você usa para limpeza de dados?

A qualidade de dados é um problema típico para profissionais e organizações que trabalham com dados, pois quase 50% dedicam 30% ou mais do seu tempo à preparação de dados. Um estudo da Anaconda também confirma que a limpeza de dados está emergindo como o aspecto mais demorado do fluxo de trabalho dos profissionais de dados. Quase metade dos nossos participantes escolhe ambientes de desenvolvimento integrado (IDEs) para lidar com esses tipos de tarefas.

Ciência de Dados:

2023

Obrigado pelo seu tempo!

Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.

Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.