Science des données

Partager :

Les questions de cette section ont été posées aux développeurs impliqués dans des activités de business intelligence, d'analyse de données, d'ingénierie des données, de machine learning, ou aux personnes occupant des postes d'analyste de données, d'ingénieur de données, de data scientist ou d'analyste business.

Quelle est l'importance pour vous de la science des données, de l'analyse des données ou du machine learning par rapport à d'autres de vos activités ?

Un nombre considérable de répondants déclare avoir des responsabilités liées à la science des données tout en gérant d'autres activités. Ces résultats montrent que le domaine de la science des données est en train de se démocratiser et poursuit sa croissance.

Y a-t-il un ingénieur en machine learning dédié dans votre équipe ou votre département ?

PyCharm

Un IDE Python polyvalent pour créer des pipelines de données, analyser des données, créer des prototypes et déployer des modèles de ML avec une excellente prise en charge de Python, des bibliothèques scientifiques, des notebooks Jupyter interactifs, des bases de données Anaconda, SQL et NoSQL, et bien plus encore.

Quels types de données analysez-vous ?

Parmi les activités suivantes, dans lesquelles êtes-vous impliqué·e ?

Quel type de graphiques utilisez-vous le plus pour la visualisation des données ?

La majorité des professionnels de la science des données préfèrent utiliser des graphiques éprouvés explorer et présenter les données. Ces types de graphiques sont largement utilisés pour des tâches telles que la collecte, l'analyse exploratoire et l'orchestration des données, ainsi que pour les opérations de ML.

Datalore

Datalore est la plateforme collaborative de science et d'analyse des données pour les équipes de JetBrains, accessible directement depuis un navigateur. Les notebooks Datalore sont compatibles avec Jupyter et fournissent une assistance intelligente au codage pour les notebooks Python, SQL, R et Scala, ainsi que des fonctionnalites de visualisations no-code et de gestion des données. Le générateur de rapports de Datalore permet aux équipes de transformer un notebook rempli de code et d'expériences en un récit clair basé sur les données. Les équipes peuvent également partager des notebooks, les éditer ensemble en temps réel et organiser leurs projets dans des espaces de travail.

Y a-t-il un ingénieur de données dédié dans votre équipe ou votre département ?

Près de la moitié des équipes et départements disposent d'un ingénieur de données ou d'un ingénieur en machine learning dédié.

Comment vous êtes-vous formé·e à la science des données, au machine learning ou à l'ingénierie des données ?

Les fonctions spécialisées de data scientist, ingénieur de données et ingénieur en machine learning sont relativement récentes sur le marché du travail. De nombreux répondants ont eu accès à ces types de fonctions indirectement, après avoir travaillé dans des domaines connexes, et on dû acquérir de nouvelles compétences par un apprentissage autonome ou en suivant des cours en ligne.

De combien de personnes se compose votre équipe dédiée aux données (vous y compris) ?

Plus de 50 % des personnes qui travaillent avec des données font partie d'équipes composées d'au moins cinq personnes.

Quels IDE ou éditeurs utilisez-vous pour la science des données ou l'analyse des données ?

Quelle proportion de votre temps de travail consacrez-vous aux notebooks ?

À quelles fins utilisez-vous les notebooks ?

Versionnez-vous vos notebooks ?

Quels outils de gestion des versions utilisez-vous ?

Bien que la majorité des professionnels de la science des données affirme ne pas faire de versioning de leurs notebooks, une proportion significative d'entre eux (41 %) choisit de le faire, et la plupart d'entre eux préfèrent utiliser Git ou GitHub pour cela.

Quels outils utilisez-vous pour présenter les résultats de vos recherches ?

Plusieurs implémentations de notebooks Jupyter sont très populaires en science des données, principalement pour l'analyse exploratoire de données, l'interrogation et l'expérimentation de données, ainsi que pour le prototypage de modèles. Environ 40 % des professionnels de la science des données utilisent des notebooks Jupyter pour présenter les résultats de leur travail, mais beaucoup d'entre eux (près de 50 %) ne passe que 10 à 20 % de leur temps à travailler avec des notebooks Jupyter.

Quels types de ressources informatiques utilisez-vous pour les tâches de science des données ?

La majorité des répondants déclarent utiliser des ressources locales pour leurs travaux de science des données.

Avec quels types de sources de données travaillez-vous ?

Bien que la majorité utilise des fichiers locaux, la proportion de personnes utilisant des bases de données SQL a augmenté de 10 points de pourcentage depuis l'année dernière, ce qui montre l'importance de SQL pour la science des données.

Quel type de données utilisez-vous le plus ?

Utilisez-vous des données synthétiques dans votre travail ?

La plupart des data scientists interrogés traitent des données issues d’une collecte sur mesure. Les types de données les plus répandus sont les données transactionnelles, les données de séries chronologiques, les images et les données générées par machine. Il est intéressant de noter que 30 % d’entre eux travaillent avec des données synthétiques (des données fabriquées artificiellement, plutôt que générées par des événements concrets).

Entraînez-vous des modèles de machine learning ou de deep learning ?

Environ 40 % de l'ensemble des répondants entraînent des modèles de machine learning ou de deep learning. Mais ce chiffre dépasse les 60 % parmi les personnes dont le travail avec les données est l'activité principale. Cette tendance suggère que la modélisation prédictive est en train de devenir l'aspect central du travail avec les données.

À quelle fréquence ré-entraînez-vous ou actualisez-vous vos modèles de machine learning ?

Combien de temps consacrez-vous chaque mois à l'entraînement de modèles ?

La moitié des spécialistes de la science des données déclarent ré-entraîner ou actualiser leurs modèles de machine learning au moins une fois par mois, mais la plupart d'entre eux disent consacrer moins de 20 heures par mois à cette tâche.

Utilisez-vous des GPU pour entraîner vos modèles ?

La majorité des spécialistes de la science des données (81 %) disent utiliser des processeurs graphiques (GPU) pour l'entraînement de modèles. Une utilisation efficace des processeurs graphiques peut accélérer l'entraînement et ainsi améliorer les performances du modèle, ce qui explique que ce soit une ressource de plus en plus attractive pour les chercheurs et les spécialistes des données. Ce résultat montre également l'importance et la pertinence des innovations technologiques dans le domaine du machine learning.

De combien de VRAM avez-vous généralement besoin pour vos tâches de machine learning ?

L'augmentation de la puissance de calcul est une tendance forte dans le domaine du machine learning. Près de 80 % des professionnels de la science des données utilisent désormais 16 Go de VRAM ou plus, tandis que le pourcentage de personnes utilisant 8 Go a diminué de six points depuis l'année dernière.

Quels types de méthodes et d'algorithmes utilisez-vous ?

Les algorithmes fondamentaux du machine learning, comme les méthodes de régression et les méthodes arborescentes, continuent de prévaloir, mais un grand nombre de professionnels de la science des données utilisent également les réseaux neuronaux. La popularité croissante et la facilité d'utilisation des réseaux transformers peuvent expliquer pourquoi 30 % des répondant sont impliques dans des travaux de traitement du langage naturel. Il est intéressant de noter que seuls 24 % des participants ont déclaré utiliser des tests statistiques dans leur travail, ce qui indique que le machine learning et le deep learning devancent maintenant les statistiques classiques en tant que compétences fondamentales en matière de données.

Quelles solutions de machine learning d'entreprise utilisez-vous ?

Les services d'Amazon se démarquent comme les solutions cloud d'entreprise les plus populaires. On constate une augmentation significative (plus de 10 points de pourcentage) de l'adoption de solutions de machine learning par les entreprises par rapport à l'année dernière.

Quels frameworks de machine learning utilisez-vous ?

TensorFlow devance légèrement Scikit-learn et PyTorch en termes de popularité. Keras et XGBoost affichent également de solides taux d'adoption. Il est intéressant de constater qu'une proportion notable de répondants (19 %) a déclaré ne pas utiliser de framework spécifique.

Quels outils utilisez-vous pour le suivi des expériences d'entraînement de modèles ?

TensorBoard est l'outil le plus utilisé, avec une part de 23 %, suivi de MLFlow avec 10 % et de WandB avec 7 %. Toutefois, deux tiers des professionnels de la science des données disent n'utiliser aucun outil spécifique pour suivre leurs expériences d'entraînement de modèles.

Parmi les propositions suivantes, lesquelles décrivent le mieux l'utilisation qui est faite du machine learning dans l'organisation pour laquelle vous travaillez ?

Le machine learning et l'IA occupent maintenant une place cruciale dans la vie quotidienne des entreprises, il n'est donc pas surprenant que près de la moitié des répondants déclarent utiliser plusieurs fonctionnalités basées sur l'IA intégrées aux logiciels qu'elles utilisent.

Quelles solutions cloud d'entreprise utilisez-vous ?

Parmi les activités pilotées par les données suivantes, quelles sont les plus difficiles à réaliser, pour vous ou pour votre organisation ?

Quel pourcentage de son temps votre équipe consacre-t-elle en moyenne à la gestion, au nettoyage ou à l'étiquetage des données ?

Quels outils utilisez-vous pour le nettoyage des données ?

La qualité des données est une question importante pour les professionnels et les organisations qui travaillent avec des données et près de la moitié des répondants déclarent consacrer au moins 30 % de leur temps à la préparation des données. Une enquête réalisée par Anaconda confirme que le nettoyage des données est l'un des aspects le plus chronophages du workflow des spécialistes des données. Près de la moitié des participants à notre enquête disent utiliser des environnements de développement intégrés (IDE) pour gérer ce type de tâches.

Science des données:

2023

Merci du temps que vous nous avez accordé !

Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.

Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.