Ciência de Dados

Compartilhar:

As perguntas nesta seção foram mostradas para desenvolvedores envolvidos em Business Intelligence, Análises de Dados, Engenharia de Dados, Machine Learning ou para aqueles cuja função era Analista de Dados/Engenheiro de Dados/Cientista de Dados ou Analista Empresarial.

Que tipo de atividade são a ciência de dados, a análise de dados e o aprendizado de máquina para você?

Data analyticsCiência de dadosAprendizado de máquina
19%17%16%É minha principal atividade profissional
36%31%23%É uma atividade profissional secundária
14%16%18%Serve para fins educacionais
18%20%24%É apenas um passatempo
12%16%19%Não estou envolvido em ciência de dados
12%36%

Um número considerável dos que responderam parece estar fazendo malabarismos entre suas responsabilidades de ciência de dados e outras atividades. Estes achados sugerem que está ocorrendo uma democratização da área, o que implica oportunidades em potencial para o crescimento do mercado de ciência de dados.

Sua equipe ou departamento de dados tem uma função dedicada de engenheiro de machine learning?

PyCharm

Um IDE Python completo para criar pipelines de dados, analisar dados, criar protótipos e implantar modelos de ML com excelente suporte para Python, bibliotecas científicas, notebooks Jupyter interativos, Anaconda, bancos de dados SQL e NoSQL e muito mais.

Que tipos de dados você analisa?

33%

Dados de transações

30%

Dados de séries temporais

27%

Fotos ou arquivos de imagem

26%

Dados gerados por máquina

23%

Paginas Web

20%

Dados de clickstream da Web

18%

Interações com clientes

Em quais das seguintes atividades você está envolvido?

46%

Visualização de dados

43%

Coleta de dados/extração de dados

33%

Análise exploratória de dados

31%

Modelagem de machine learning

31%

Pipelines de dados

23%

Operações de machine learning

21%

Arquitetura de armazenamento

Qual tipo de gráfico você usa mais para visualizações de dados?

64%

Gráfico de linhas

58%

Gráfico de barras

57%

Gráfico de dispersão

54%

Histograma

33%

Gráfico de barras empilhadas

31%

Gráfico de barras agrupadas

13%

Gráfico de violino

4%

Outros

10%

Nenhuma opção

A maioria dos profissionais de ciência de dados valoriza o uso de gráficos consagrados para a exploração e apresentação de dados. Esses tipos de gráficos são amplamente usados em várias tarefas relacionadas a dados, como reunião de dados, análise exploratória de dados, orquestração de dados e ML Ops.

Datalore

O Datalore é uma plataforma colaborativa da JetBrains para ciência e análise de dados, que pode ser acessada diretamente do navegador. Os notebooks do Datalore são compatíveis com os do Jupyter e oferecem assistência inteligente à codificação para notebooks do Python, SQL, R e Scala, além de visualizações "no-code" e disputa de dados. O gerador de relatórios do Datalore permite que as equipes transformem notebooks cheios de código e experimentos em um histórico claro e orientado a dados. As equipes podem compartilhar notebooks, editá-los em conjunto em tempo real e organizar seus projetos em espaços de trabalho.

Sua equipe ou departamento de dados tem uma função dedicada de engenheiro de dados?

Quase metade das equipes ou departamentos tem um engenheiro de dados ou de aprendizado de máquina em tempo integral.

Como você aprendeu ciência de dados, machine learning ou engenharia de dados?

56%

Estudei de forma independente

41%

Estudei programação ou análise de dados em uma universidade

36%

Fiz cursos online

19%

Fiz a transição de um trabalho de engenharia de software

4%

Outros

Funções especializadas, como cientista de dados, engenheiro de dados e engenheiro de aprendizado de máquina, são adições relativamente recentes no mercado de trabalho. Muitos dos que responderam estão em transição para essas funções a partir de áreas relacionadas e precisam adquirir novas habilidades por estudo próprio ou cursos on-line.

Incluindo você, quantos membros tem a sua equipe de dados?

20%

1 a 2

15%

3

11%

4

9%

5

16%

6 a 7

12%

8 a 10

7%

11 a 15

11%

Mais de 15

Mais de 50% dos que trabalham com dados estão em equipes de cinco ou mais pessoas.

Quais IDEs ou editores você usa para ciência de dados ou análise de dados?

40%

Visual Studio Code

35%

Jupyter Notebooks

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

Quanto do seu tempo de trabalho é gasto dentro de notebooks?

48%

10 a 20%

23%

20 a 40%

20%

Mais de 40%

10%

Não uso notebooks

Para que você utiliza notebooks?

71%

Análise exploratória de dados

66%

Experimentos em dados/consultas de dados

65%

Visualização

43%

Prototipagem de modelos

9%

Orquestração

1%

Outros

Você controla versões nos seus notebooks?

Que ferramentas de controle de versão você utiliza?

57%

Git

57%

GitHub

23%

GitLab

20%

Controle de versão dentro do meu IDE/Editor

12%

Crio várias cópias dos meus notebooks

2%

Outros

Embora a maioria dos profissionais de ciência de dados não controle as versões dos seus notebooks, uma parcela substancial (41%) escolhe fazer isso e a maioria destes escolhe o Git ou o GitHub para o controle de versões.

Que ferramentas você utiliza para apresentar os resultados da sua pesquisa?

39%

PowerPoint, slides do Google ou semelhantes

37%

Apresento o notebook

36%

Editor de planilhas

25%

MS Word, Google Docs ou semelhantes

18%

Microsoft PowerBI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

Outros

Várias implementações de notebooks do Jupyter são muito populares em ciência de dados. Alguns casos comuns de uso são a análise exploratória de dados, a experimentação com dados e com a consulta a eles e a prototipagem de modelos. Aproximadamente 40% dos profissionais de ciência de dados usam notebooks do Jupyter para apresentar os resultados do seu trabalho, mas é interessante observar que muitos (quase 50%) usam notebooks do Jupyter em apenas 10%–20% do seu tempo.

Que tipos de recursos computacionais você utiliza para tarefas de ciência de dados?

57%

Recursos locais

28%

Servidores locais da empresa

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

Outros

15%

Nenhuma opção

A maioria dos que responderam usa recursos locais em seu trabalho de ciência de dados.

Com que tipos de fontes de dados você trabalha?

67%

64%

Arquivos locais

52%

62%

Bancos de dados SQL

24%

23%

​​Amazon S3

19%

15%

Big Data

14%

15%

Armazenamento de arquivos no Google

8%

9%

Armazenamento de arquivos no Azure

5%

4%

Outros

Embora a maioria use arquivos locais, a parcela dos que usam bancos de dados SQL aumentou 10 pontos percentuais no último ano, realçando a importância do SQL para a ciência de dados.

Que tipo de dados você usa mais?

Você usa dados sintéticos no seu trabalho?

A maioria dos cientistas de dados na pesquisa processam dados coletados de forma personalizada. Os tipos de dados mais comuns são os transacionais, de séries temporais, gerados por máquina e imagens. Curiosamente, 30% trabalham com dados sintéticos — dados "fabricados" artificialmente, em vez de gerados por eventos do mundo real.

Você treina modelos de machine learning ou deep learning?

Aproximadamente 40% de todos os que responderam treinam modelos de aprendizado de máquina ou aprendizado profundo. Porém, esta cifra salta para mais de 60% entre aqueles que consideram sua atividade primária como sendo o trabalho com dados. Esta tendência do setor implica que a modelagem preditiva está se tornando o aspecto central do trabalho com dados.

Com que frequência você retreina ou atualiza os seus modelos de aprendizado de máquina?

27%

Mais de uma vez por mês

23%

Mensalmente

18%

Trimestralmente

7%

Duas vezes por ano

7%

Anualmente

18%

Nunca

Quanto tempo você gasta por mês no treinamento de modelos?

27%

0 a 5 horas

36%

5 a 20 horas

23%

20 a 50 horas

8%

50 a 100 horas

6%

Mais de 100 horas

Embora metade dos profissionais de ciência de dados retreine ou atualize seus modelos de aprendizado de máquina pelo menos uma vez por mês, a maioria gasta menos de 20 horas por mês nessa tarefa.

Você utiliza GPUs para treinar seus modelos?

A maioria — 81% — dos profissionais de ciência de dados usa GPUs no treinamento de modelos. O uso eficiente de processadores gráficos pode acelerar o treinamento e assim aumentar o desempenho do modelo, tornando este recurso cada vez mais atraente para pesquisadores e especialistas de dados. Isso também enfatiza a importância e relevância das inovações tecnológicas no mundo do aprendizado de máquina.

De quanta VRAM você geralmente precisa para suas tarefas de machine learning?

28%

22%

8 GB

33%

29%

16 GB

23%

22%

32 GB

10%

14%

64 GB

5%

6%

128 GB

8%

Mais de 128 GB

Mais poder de computação é uma tendência clara nas tarefas de aprendizado de máquina. Atualmente, quase 80% dos profissionais de ciência de dados usam 16 GB ou mais de VRAM, enquanto a parcela dos que usam 8 GB diminuiu 6 pontos percentuais no último ano.

Que tipos de métodos e algoritmos você utiliza?

47%

Regressão linear ou logística

47%

Redes neurais

38%

Árvores de decisão ou florestas aleatórias

36%

Métodos de agrupamento

30%

Métodos de NLP

25%

Abordagens bayesianas

24%

Redes de transformadores

Os principais algoritmos de aprendizado de máquina, como regressão e métodos baseados em árvore, continuam prevalecendo. No entanto, uma parcela significativa dos profissionais de ciência de dados também adotou as redes neurais. A popularidade e a facilidade de uso cada vez maiores das redes de transformadores também podem explicar por que 30% dos que responderam trabalham com processamento de linguagem natural. Curiosamente, apenas 24% dos entrevistados relataram que usam testes estatísticos em seu trabalho, indicando que o aprendizado de máquina e o aprendizado profundo passaram à frente da estatística clássica como habilidades fundamentais para dados.

Quais soluções corporativas de machine learning você utiliza?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Os serviços da Amazon destacam-se como as soluções mais populares de nuvem corporativa. Notavelmente, houve um aumento significativo (de mais de 10 pontos percentuais) na adoção de soluções corporativas de aprendizado de máquina, em comparação com o ano anterior.

Quais frameworks de aprendizado de máquina você usa?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

O TensorFlow fica ligeiramente à frente do scikit-learn e do PyTorch em popularidade, com o Keras e o XGBoost também mostrando taxas sólidas de adoção. É interessante observar que uma parcela significativa dos que responderam (19%) informou não usar nenhum framework específico.

Que ferramentas você usa para rastrear experimentos de treinamento de modelos?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

Outros

66%

Nenhuma opção

O TensorBoard é a ferramenta mais usada, com uma parcela de 23%, seguida do MLFlow, com 10%, e do WandB, com 7%. Porém, dois terços dos profissionais de ciência de dados não estão usando nenhuma ferramenta específica para rastrear seus experimentos de treinamento de modelos.

Qual das seguintes alternativas descreve melhor o uso do aprendizado de máquina na sua organização?

47%

Usar recursos baseados em IA em produtos ou serviços

30%

Auxiliar na pesquisa e desenvolvimento de novos produtos

28%

Impulsionar aplicativos de produção

28%

Ainda pesquisando/fazendo testes piloto em aplicações potenciais

25%

Melhorar a compreensão dos dados corporativos

22%

Reduzir os custos dos negócios

21%

Oferecer suporte a outras funções de negócios

O aprendizado de máquina e a IA tornaram-se componentes cruciais da vida diária dos negócios. Portanto, não é nenhuma surpresa que quase metade dos que responderam use vários recursos baseados em IA integrados ao software que eles usam.

Quais soluções corporativas de nuvem você usa?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

Quais das seguintes atividades orientadas por dados são mais difíceis para você ou a sua organização executarem?

47%

Qualidade dos dados

29%

Segurança e governança dos dados

28%

Preparação/transformação de dados

28%

Análise de dados

23%

Criação/coleta de dados

22%

Integração dos dados

20%

Migração de dados

Em média, qual porcentagem do tempo da sua equipe é gasta gerenciando, limpando ou rotulando dados?

Que ferramentas você usa para limpeza de dados?

47%

IDEs

27%

Plataformas de nuvem

27%

Planilhas

3%

Ferramentas especializadas, como o OpenRefine

5%

Outros

29%

Não faço a limpeza de dados

A qualidade de dados é um problema típico para profissionais e organizações que trabalham com dados, pois quase 50% dedicam 30% ou mais do seu tempo à preparação de dados. Um estudo da Anaconda também confirma que a limpeza de dados está emergindo como o aspecto mais demorado do fluxo de trabalho dos profissionais de dados. Quase metade dos nossos participantes escolhe ambientes de desenvolvimento integrado (IDEs) para lidar com esses tipos de tarefas.

Ciência de Dados:

2023

Obrigado pelo seu tempo!

Esperamos que você tenha achado nosso relatório útil. Compartilhe este relatório com seus amigos e colegas.

Se tiver dúvidas ou sugestões, entre em contato conosco em surveys@jetbrains.com.