Science des données

Partager :

Les questions de cette section ont été posées aux développeurs impliqués dans des activités de business intelligence, d'analyse de données, d'ingénierie des données, de machine learning, ou aux personnes occupant des postes d'analyste de données, d'ingénieur de données, de data scientist ou d'analyste business.

Quelle est l'importance pour vous de la science des données, de l'analyse des données ou du machine learning par rapport à d'autres de vos activités ?

Analytique de donnéesScience des donnéesMachine learning
19 %17 %16 %C'est mon activité professionnelle principale
36 %31 %23 %C'est une activité professionnelle secondaire
14 %16 %18 %Je l'utilise à des fins éducatives
18 %20 %24 %Ce n'est qu'un passe-temps
12 %16 %19 %Je ne fais pas de science des données
12 %36 %

Un nombre considérable de répondants déclare avoir des responsabilités liées à la science des données tout en gérant d'autres activités. Ces résultats montrent que le domaine de la science des données est en train de se démocratiser et poursuit sa croissance.

Y a-t-il un ingénieur en machine learning dédié dans votre équipe ou votre département ?

PyCharm

Un IDE Python polyvalent pour créer des pipelines de données, analyser des données, créer des prototypes et déployer des modèles de ML avec une excellente prise en charge de Python, des bibliothèques scientifiques, des notebooks Jupyter interactifs, des bases de données Anaconda, SQL et NoSQL, et bien plus encore.

Quels types de données analysez-vous ?

33%

Données transactionnelles

30%

Données de séries chronologiques

27%

Fichiers photos ou images

26%

Données générées par des machines

23%

Pages web

20%

Données sur le flux de clics / le parcours de navigation sur le web

18%

Interactions avec les clients

Parmi les activités suivantes, dans lesquelles êtes-vous impliqué·e ?

46%

Visualisation de données

43%

Collecte ou récupération de données

33%

Analyse exploratoire des données

31%

Modélisation pour le machine learning

31%

Pipelines de données

23%

Opérations de machine learning

21%

Architecture de stockage

Quel type de graphiques utilisez-vous le plus pour la visualisation des données ?

64%

Tracé linéaire

58%

Diagramme à barres

57%

Nuage de points

54%

Histogramme

33%

Diagramme à barres empilées

31%

Diagramme à barres groupées

13%

Graphique en violon

4%

Autre

10%

Aucun

La majorité des professionnels de la science des données préfèrent utiliser des graphiques éprouvés explorer et présenter les données. Ces types de graphiques sont largement utilisés pour des tâches telles que la collecte, l'analyse exploratoire et l'orchestration des données, ainsi que pour les opérations de ML.

Datalore

Datalore est la plateforme collaborative de science et d'analyse des données pour les équipes de JetBrains, accessible directement depuis un navigateur. Les notebooks Datalore sont compatibles avec Jupyter et fournissent une assistance intelligente au codage pour les notebooks Python, SQL, R et Scala, ainsi que des fonctionnalites de visualisations no-code et de gestion des données. Le générateur de rapports de Datalore permet aux équipes de transformer un notebook rempli de code et d'expériences en un récit clair basé sur les données. Les équipes peuvent également partager des notebooks, les éditer ensemble en temps réel et organiser leurs projets dans des espaces de travail.

Y a-t-il un ingénieur de données dédié dans votre équipe ou votre département ?

Près de la moitié des équipes et départements disposent d'un ingénieur de données ou d'un ingénieur en machine learning dédié.

Comment vous êtes-vous formé·e à la science des données, au machine learning ou à l'ingénierie des données ?

56%

J'ai étudié par moi-même

41%

J'ai étudié la programmation ou l'analyse des données dans le cadre de mes études supérieures

36%

J'ai suivi des cours en ligne

19%

J'occupais un poste d'ingénieur logiciel auparavant

4%

Autre

Les fonctions spécialisées de data scientist, ingénieur de données et ingénieur en machine learning sont relativement récentes sur le marché du travail. De nombreux répondants ont eu accès à ces types de fonctions indirectement, après avoir travaillé dans des domaines connexes, et on dû acquérir de nouvelles compétences par un apprentissage autonome ou en suivant des cours en ligne.

De combien de personnes se compose votre équipe dédiée aux données (vous y compris) ?

20%

1 ou 2

15%

3

11%

4

9%

5

16%

6 à 7

12%

8 à 10

7%

11 à 15

11%

Plus de 15

Plus de 50 % des personnes qui travaillent avec des données font partie d'équipes composées d'au moins cinq personnes.

Quels IDE ou éditeurs utilisez-vous pour la science des données ou l'analyse des données ?

40%

Visual Studio Code

35%

Notebooks Jupyter

27%

PyCharm Édition Professionnelle

20%

PyCharm Édition Community

17%

Google Colab

13%

DataGrip

13%

JupyterLab

Quelle proportion de votre temps de travail consacrez-vous aux notebooks ?

48%

10 à 20 %

23%

20 à 40 %

20%

Plus de 40 %

10%

Je n'utilise pas de notebooks

À quelles fins utilisez-vous les notebooks ?

71%

Analyse exploratoire des données

66%

Expériences sur les données / interrogation des données

65%

Visualisation

43%

Prototypage de modèles

9%

Orchestration

1%

Autre

Versionnez-vous vos notebooks ?

Quels outils de gestion des versions utilisez-vous ?

57%

Git

57%

GitHub

23%

GitLab

20%

Versioning dans mon éditeur ou IDE

12%

Je crée plusieurs copies de mes notebooks

2%

Autre

Bien que la majorité des professionnels de la science des données affirme ne pas faire de versioning de leurs notebooks, une proportion significative d'entre eux (41 %) choisit de le faire, et la plupart d'entre eux préfèrent utiliser Git ou GitHub pour cela.

Quels outils utilisez-vous pour présenter les résultats de vos recherches ?

39%

PowerPoint, Google Slides ou similaire

37%

Je présente le notebook

36%

Éditeur de type tableur

25%

MS Word, Google Docs ou similaire

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

Autre

Plusieurs implémentations de notebooks Jupyter sont très populaires en science des données, principalement pour l'analyse exploratoire de données, l'interrogation et l'expérimentation de données, ainsi que pour le prototypage de modèles. Environ 40 % des professionnels de la science des données utilisent des notebooks Jupyter pour présenter les résultats de leur travail, mais beaucoup d'entre eux (près de 50 %) ne passe que 10 à 20 % de leur temps à travailler avec des notebooks Jupyter.

Quels types de ressources informatiques utilisez-vous pour les tâches de science des données ?

57%

Ressources locales

28%

Serveurs de l'entreprise sur site

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

Autre

15%

Aucun

La majorité des répondants déclarent utiliser des ressources locales pour leurs travaux de science des données.

Avec quels types de sources de données travaillez-vous ?

67%

64%

Fichiers locaux

52%

62%

Bases de données SQL

24%

23%

​​Amazon S3

19%

15%

Big Data

14%

15%

Stockage de fichiers Google

8%

9%

Stockage de fichiers Azure

5%

4%

Autre

Bien que la majorité utilise des fichiers locaux, la proportion de personnes utilisant des bases de données SQL a augmenté de 10 points de pourcentage depuis l'année dernière, ce qui montre l'importance de SQL pour la science des données.

Quel type de données utilisez-vous le plus ?

Utilisez-vous des données synthétiques dans votre travail ?

La plupart des data scientists interrogés traitent des données issues d’une collecte sur mesure. Les types de données les plus répandus sont les données transactionnelles, les données de séries chronologiques, les images et les données générées par machine. Il est intéressant de noter que 30 % d’entre eux travaillent avec des données synthétiques (des données fabriquées artificiellement, plutôt que générées par des événements concrets).

Entraînez-vous des modèles de machine learning ou de deep learning ?

Environ 40 % de l'ensemble des répondants entraînent des modèles de machine learning ou de deep learning. Mais ce chiffre dépasse les 60 % parmi les personnes dont le travail avec les données est l'activité principale. Cette tendance suggère que la modélisation prédictive est en train de devenir l'aspect central du travail avec les données.

À quelle fréquence ré-entraînez-vous ou actualisez-vous vos modèles de machine learning ?

27%

Plus d'une fois par mois

23%

Mensuellement

18%

Trimestriellement

7%

Deux fois par an

7%

Annuellement

18%

Jamais

Combien de temps consacrez-vous chaque mois à l'entraînement de modèles ?

27%

0 à 5 heures

36%

5 à 20 heures

23%

20 à 50 heures

8%

50 à 100 heures

6%

Plus de 100 heures

La moitié des spécialistes de la science des données déclarent ré-entraîner ou actualiser leurs modèles de machine learning au moins une fois par mois, mais la plupart d'entre eux disent consacrer moins de 20 heures par mois à cette tâche.

Utilisez-vous des GPU pour entraîner vos modèles ?

La majorité des spécialistes de la science des données (81 %) disent utiliser des processeurs graphiques (GPU) pour l'entraînement de modèles. Une utilisation efficace des processeurs graphiques peut accélérer l'entraînement et ainsi améliorer les performances du modèle, ce qui explique que ce soit une ressource de plus en plus attractive pour les chercheurs et les spécialistes des données. Ce résultat montre également l'importance et la pertinence des innovations technologiques dans le domaine du machine learning.

De combien de VRAM avez-vous généralement besoin pour vos tâches de machine learning ?

28%

22%

8 Go

33%

29%

16 Go

23%

22%

32 Go

10%

14%

64 Go

5%

6%

128 Go

8%

Plus de 128 Go

L'augmentation de la puissance de calcul est une tendance forte dans le domaine du machine learning. Près de 80 % des professionnels de la science des données utilisent désormais 16 Go de VRAM ou plus, tandis que le pourcentage de personnes utilisant 8 Go a diminué de six points depuis l'année dernière.

Quels types de méthodes et d'algorithmes utilisez-vous ?

47%

Régression linéaire ou logistique

47%

Réseaux neuronaux

38%

Arbres de décision ou forêts aléatoires

36%

Méthodes de regroupement

30%

Méthodes PNL

25%

Approches bayésiennes

24%

Réseaux de transformateurs

Les algorithmes fondamentaux du machine learning, comme les méthodes de régression et les méthodes arborescentes, continuent de prévaloir, mais un grand nombre de professionnels de la science des données utilisent également les réseaux neuronaux. La popularité croissante et la facilité d'utilisation des réseaux transformers peuvent expliquer pourquoi 30 % des répondant sont impliques dans des travaux de traitement du langage naturel. Il est intéressant de noter que seuls 24 % des participants ont déclaré utiliser des tests statistiques dans leur travail, ce qui indique que le machine learning et le deep learning devancent maintenant les statistiques classiques en tant que compétences fondamentales en matière de données.

Quelles solutions de machine learning d'entreprise utilisez-vous ?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Les services d'Amazon se démarquent comme les solutions cloud d'entreprise les plus populaires. On constate une augmentation significative (plus de 10 points de pourcentage) de l'adoption de solutions de machine learning par les entreprises par rapport à l'année dernière.

Quels frameworks de machine learning utilisez-vous ?

50%

TensorFlow

49%

SciKit-Learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow devance légèrement Scikit-learn et PyTorch en termes de popularité. Keras et XGBoost affichent également de solides taux d'adoption. Il est intéressant de constater qu'une proportion notable de répondants (19 %) a déclaré ne pas utiliser de framework spécifique.

Quels outils utilisez-vous pour le suivi des expériences d'entraînement de modèles ?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

Autre

66%

Aucun

TensorBoard est l'outil le plus utilisé, avec une part de 23 %, suivi de MLFlow avec 10 % et de WandB avec 7 %. Toutefois, deux tiers des professionnels de la science des données disent n'utiliser aucun outil spécifique pour suivre leurs expériences d'entraînement de modèles.

Parmi les propositions suivantes, lesquelles décrivent le mieux l'utilisation qui est faite du machine learning dans l'organisation pour laquelle vous travaillez ?

47%

Utilisation de fonctionnalités basées sur l'IA dans les produits ou services

30%

Aide à la recherche et au développement de nouveaux produits

28%

Stimulation de la production d'applications

28%

Recherche / pilotage d'applications potentielles toujours en cours

25%

Amélioration de la compréhension des données de l'entreprise

22%

Réduction des coûts de l'entreprise

21%

Assistance aux autres fonctions de l'entreprise

Le machine learning et l'IA occupent maintenant une place cruciale dans la vie quotidienne des entreprises, il n'est donc pas surprenant que près de la moitié des répondants déclarent utiliser plusieurs fonctionnalités basées sur l'IA intégrées aux logiciels qu'elles utilisent.

Quelles solutions cloud d'entreprise utilisez-vous ?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

Parmi les activités pilotées par les données suivantes, quelles sont les plus difficiles à réaliser, pour vous ou pour votre organisation ?

47%

Qualité des données

29%

Sécurité et gouvernance des données

28%

Préparation ou transformation des données

28%

Analyse des données

23%

Création ou collecte de données

22%

Intégration des données

20%

Migration de données

Quel pourcentage de son temps votre équipe consacre-t-elle en moyenne à la gestion, au nettoyage ou à l'étiquetage des données ?

Quels outils utilisez-vous pour le nettoyage des données ?

47%

IDE

27%

Plateformes cloud

27%

Tableur

3%

Outils spécialisés comme OpenRefine

5%

Autre

29%

Je n'effectue pas de nettoyage de données

La qualité des données est une question importante pour les professionnels et les organisations qui travaillent avec des données et près de la moitié des répondants déclarent consacrer au moins 30 % de leur temps à la préparation des données. Une enquête réalisée par Anaconda confirme que le nettoyage des données est l'un des aspects le plus chronophages du workflow des spécialistes des données. Près de la moitié des participants à notre enquête disent utiliser des environnements de développement intégrés (IDE) pour gérer ce type de tâches.

Science des données:

2023

Merci du temps que vous nous avez accordé !

Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.

Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.