Science des données
Partager :
Les questions de cette section ont été posées aux développeurs impliqués dans des activités de business intelligence, d'analyse de données, d'ingénierie des données, de machine learning, ou aux personnes occupant des postes d'analyste de données, d'ingénieur de données, de data scientist ou d'analyste business.
Un nombre considérable de répondants déclare avoir des responsabilités liées à la science des données tout en gérant d'autres activités. Ces résultats montrent que le domaine de la science des données est en train de se démocratiser et poursuit sa croissance.
PyCharm
Un IDE Python polyvalent pour créer des pipelines de données, analyser des données, créer des prototypes et déployer des modèles de ML avec une excellente prise en charge de Python, des bibliothèques scientifiques, des notebooks Jupyter interactifs, des bases de données Anaconda, SQL et NoSQL, et bien plus encore.
La majorité des professionnels de la science des données préfèrent utiliser des graphiques éprouvés explorer et présenter les données. Ces types de graphiques sont largement utilisés pour des tâches telles que la collecte, l'analyse exploratoire et l'orchestration des données, ainsi que pour les opérations de ML.
Datalore
Datalore est la plateforme collaborative de science et d'analyse des données pour les équipes de JetBrains, accessible directement depuis un navigateur. Les notebooks Datalore sont compatibles avec Jupyter et fournissent une assistance intelligente au codage pour les notebooks Python, SQL, R et Scala, ainsi que des fonctionnalites de visualisations no-code et de gestion des données. Le générateur de rapports de Datalore permet aux équipes de transformer un notebook rempli de code et d'expériences en un récit clair basé sur les données. Les équipes peuvent également partager des notebooks, les éditer ensemble en temps réel et organiser leurs projets dans des espaces de travail.
Près de la moitié des équipes et départements disposent d'un ingénieur de données ou d'un ingénieur en machine learning dédié.
Les fonctions spécialisées de data scientist, ingénieur de données et ingénieur en machine learning sont relativement récentes sur le marché du travail. De nombreux répondants ont eu accès à ces types de fonctions indirectement, après avoir travaillé dans des domaines connexes, et on dû acquérir de nouvelles compétences par un apprentissage autonome ou en suivant des cours en ligne.
Bien que la majorité des professionnels de la science des données affirme ne pas faire de versioning de leurs notebooks, une proportion significative d'entre eux (41 %) choisit de le faire, et la plupart d'entre eux préfèrent utiliser Git ou GitHub pour cela.
Plusieurs implémentations de notebooks Jupyter sont très populaires en science des données, principalement pour l'analyse exploratoire de données, l'interrogation et l'expérimentation de données, ainsi que pour le prototypage de modèles. Environ 40 % des professionnels de la science des données utilisent des notebooks Jupyter pour présenter les résultats de leur travail, mais beaucoup d'entre eux (près de 50 %) ne passe que 10 à 20 % de leur temps à travailler avec des notebooks Jupyter.
Bien que la majorité utilise des fichiers locaux, la proportion de personnes utilisant des bases de données SQL a augmenté de 10 points de pourcentage depuis l'année dernière, ce qui montre l'importance de SQL pour la science des données.
La plupart des data scientists interrogés traitent des données issues d’une collecte sur mesure. Les types de données les plus répandus sont les données transactionnelles, les données de séries chronologiques, les images et les données générées par machine. Il est intéressant de noter que 30 % d’entre eux travaillent avec des données synthétiques (des données fabriquées artificiellement, plutôt que générées par des événements concrets).
Environ 40 % de l'ensemble des répondants entraînent des modèles de machine learning ou de deep learning. Mais ce chiffre dépasse les 60 % parmi les personnes dont le travail avec les données est l'activité principale. Cette tendance suggère que la modélisation prédictive est en train de devenir l'aspect central du travail avec les données.
La moitié des spécialistes de la science des données déclarent ré-entraîner ou actualiser leurs modèles de machine learning au moins une fois par mois, mais la plupart d'entre eux disent consacrer moins de 20 heures par mois à cette tâche.
La majorité des spécialistes de la science des données (81 %) disent utiliser des processeurs graphiques (GPU) pour l'entraînement de modèles. Une utilisation efficace des processeurs graphiques peut accélérer l'entraînement et ainsi améliorer les performances du modèle, ce qui explique que ce soit une ressource de plus en plus attractive pour les chercheurs et les spécialistes des données. Ce résultat montre également l'importance et la pertinence des innovations technologiques dans le domaine du machine learning.
L'augmentation de la puissance de calcul est une tendance forte dans le domaine du machine learning. Près de 80 % des professionnels de la science des données utilisent désormais 16 Go de VRAM ou plus, tandis que le pourcentage de personnes utilisant 8 Go a diminué de six points depuis l'année dernière.
Les algorithmes fondamentaux du machine learning, comme les méthodes de régression et les méthodes arborescentes, continuent de prévaloir, mais un grand nombre de professionnels de la science des données utilisent également les réseaux neuronaux. La popularité croissante et la facilité d'utilisation des réseaux transformers peuvent expliquer pourquoi 30 % des répondant sont impliques dans des travaux de traitement du langage naturel. Il est intéressant de noter que seuls 24 % des participants ont déclaré utiliser des tests statistiques dans leur travail, ce qui indique que le machine learning et le deep learning devancent maintenant les statistiques classiques en tant que compétences fondamentales en matière de données.
Les services d'Amazon se démarquent comme les solutions cloud d'entreprise les plus populaires. On constate une augmentation significative (plus de 10 points de pourcentage) de l'adoption de solutions de machine learning par les entreprises par rapport à l'année dernière.
TensorFlow devance légèrement Scikit-learn et PyTorch en termes de popularité. Keras et XGBoost affichent également de solides taux d'adoption. Il est intéressant de constater qu'une proportion notable de répondants (19 %) a déclaré ne pas utiliser de framework spécifique.
TensorBoard est l'outil le plus utilisé, avec une part de 23 %, suivi de MLFlow avec 10 % et de WandB avec 7 %. Toutefois, deux tiers des professionnels de la science des données disent n'utiliser aucun outil spécifique pour suivre leurs expériences d'entraînement de modèles.
Le machine learning et l'IA occupent maintenant une place cruciale dans la vie quotidienne des entreprises, il n'est donc pas surprenant que près de la moitié des répondants déclarent utiliser plusieurs fonctionnalités basées sur l'IA intégrées aux logiciels qu'elles utilisent.
La qualité des données est une question importante pour les professionnels et les organisations qui travaillent avec des données et près de la moitié des répondants déclarent consacrer au moins 30 % de leur temps à la préparation des données. Une enquête réalisée par Anaconda confirme que le nettoyage des données est l'un des aspects le plus chronophages du workflow des spécialistes des données. Près de la moitié des participants à notre enquête disent utiliser des environnements de développement intégrés (IDE) pour gérer ce type de tâches.
Merci du temps que vous nous avez accordé !
Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.
Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.