Science des données
Partager :
Les questions de cette section ont été posées aux développeurs impliqués dans des activites de veille économique / commerciale (business intelligence), d'analyse de données, d'ingénierie de données, de machine learning, ou travaillant comme analyste de données, ingénieur de données, data scientist ou analyste commercial.
Un nombre assez important de personnes combinent des responsabilités en matière de science des données avec d'autres activités. Ces résultats montrent une certaine démocratisation de ce domaine et un potentiel de croissance du marché.
Nous avons créé Datalore : une plateforme collaborative pour les équipes de science des données. Datalore offre une excellente expérience de codage aux professionnels des sciences des données, mais apporte également des automatisations no code pour les workflows d'exploration et de visualisation des données. Ainsi, les utilisateurs aux profils non techniques peuvent créer des rapports ponctuels et faire de la visualisation de données dans le même outil que l'équipe principale en charge des données.
Les postes de spécialistes des données, tels que data scientist, ingénieur de données et ingénieur en machine learning, sont relativement nouveaux. Un grand nombre de répondants ont opéré une transition vers ce type de postes après avoir travaillé ou s'être formés dans des domaines connexes et ont donc eu besoin de se perfectionner en suivant des formations ou des cours en ligne par la suite. Alors que les diplômes de troisième cycle dans les STEM étaient traditionnellement la voie royale pour travailler dans la science des données ou le machine learning, la tendance a évolué au cours des sept dernières années et le nombre de personnes ayant eu accès un poste dans l'un de ces domaines avec un diplôme de premier cycle spécialisés dans les données est passé de 20 % en 2015 à 31 % en 2021.
Les notebooks Jupyter sont cités comme éditeur préféré pour les travaux de science et d'analyse des données, avec nviron 40 % des répondants indiquant les utiliser pour ces activités. Ce résultat est encore plus élevé parmi ceux qui ont déclaré faire de la collecte et de la visualisation de données, de l'analyse exploratoire de données ou de la modélisation de machine learning, 70 % d'entre eux déclarant utiliser des notebooks Jupyter.
Approfondissez ce sujet en consultant nos études récentes. Nous avons constaté que de 2019 à 2020, le nombre de notebooks Python 3 a augmenté de 87 % et le nombre de notebooks Python 2 de 12 %.
Les notebooks Jupyter restent l'un des outils les plus populaires. 42 % des répondants les utilisent et plus de 50 % d'entre eux déclarent que le travail avec les données est leur activité principale. Les notebooks sont principalement utilisés pour des travaux exploratoires comme l'exploration de données et la création de prototypes de modèles. Mais même parmi les spécialistes des données, seule une minorité des répondants disent utiliser des notebooks pendant plus de 40 % de leur temps de travail.
Le pourcentage des personnes qui versionnent leurs notebooks est assez élevé, ce qui est bon signe car cela indique qu'une grande partie des professionnels des données considèrent les notebooks comme du code qui doit être maintenu. Les outils les plus populaires pour versionner les notebooks sont Git et GitHub.
La gestion des versions des notebooks Jupyter via l'interface en ligne de commande (CLI) Git peut s'avérer complexe. Heureusement, DataSpell dispose d'une large gamme de fonctionnalités pour travailler avec Git. Il facilite l'exécution des tâches essentielles via l'interface utilisateur, comme la configuration de dépôt, l'ajout et le transfert de notebooks et la visualisation des différences entre les commits de notebooks, le tout sans avoir à mémoriser une seule commande Git ! Consultez cet article pour en savoir plus sur l'utilisation de Git avec les notebooks Jupyter dans DataSpell.
Outre les fichiers locaux, les bases de données SQL restent les sources de données les plus utilisées par les spécialistes des données.
Datalore vous permet de transformer les notebooks Jupyter en de superbes applications de données en quelques secondes. Disposez les cellules sur le canevas et publiez le résultat en mode statique ou interactif. Vos interlocuteurs pourront accéder au rapport à l'aide d'un lien.
Afficher un rapportLes algorithmes essentiels du machine learning, tels que les méthodes de régression et d'arborescences, continuent à être largement utilisés. Toutefois, la majorité des répondants utilisent également les réseaux neuronaux, en particulier les architectures de transformers. La simplicité d'utilisation et la popularité croissante des réseaux de transformers peuvent également expliquer pourquoi plus d'un quart des répondants ont déclaré travailler sur le traitement du langage naturel (NLP). Seulement un cinquième des répondants a déclaré utiliser des tests statistiques dans le cadre de son travail, ce qui suggère que le machine learning et le deep learning ont supplanté les statistiques classiques en tant que compétence fondamentale dans le domaine des données.
TensorFlow est le framework de deep learning le plus populaire parmi l'ensemble des repondants, mais il arrive à égalité avec PyTorch parmi les personnes dont le travail sur les données est l'activité principale. Scikit-learn est la bibliothèque de machine learning la plus populaire, bien que des paquets et des frameworks spécialisés dans la modélisation par arborescence tels que XGBoost et LightGBM soient utilisés par une minorité notable de répondants.
Les services Amazon sont les solutions de cloud computing les plus populaires auprès des entreprises.
La majorité des personnes interrogées (70 %) travaillent en petits groupes de 10 personnes maximum. Une personne sur cinq travaille dans une équipe de plus de 15 spécialistes des données.
Près de 50 % des équipes ou départements ont un ingénieur de données.
Un peu plus de 50 % des répondants ont déclaré que leur équipe comptait un ingénieur de données ou un ingénieurs en machine learning. Les responsabilités liées aux postes d'ingénieur de données et d'ingénieur en en machine learning peuvent beaucoup varier selon les entreprises, il est donc possible que les personnes occupant l'un ou l'autre de ces postes effectuent en réalité de tâches connexes, telles que le déploiement de modèles et la gestion de pipelines de données. Sans surprise, plus l'équipe est grande, plus elle est susceptible de comporter l'un de ces postes. Plus de 80 % repondants travaillant dans des équipes comptant 1 à 2 membres n'avaient ni ingénieur de données ni ingénieur ML, tandis que 79 % de ceux travaillant dans des équipes de plus de 15 personnes disposaient d'ingénieurs de données dédiés, et 65 % d'ingénieurs ML dédiés.
Un peu moins de la moitié des répondants déclarent entraîner des modèles de machine learning ou de deep learning, mais on atteint 60 % chez les personnes dont l'activité principale est le travail sur les données, ce qui suggère que la modélisation prédictive est en passe de devenir un élément essentiel de ce domaine d'activité.
La plupart des répondants ont indiqué utiliser des GPU pour entraîner leurs modèles de machine learning ou de deep learning. Les besoins en VRAM diffèrent selon la manière dont elles travaillent sur les données : 40 % des personnes qui le font dans le cadre de leurs loisirs ou à des fins d'enseignement ont indiqué que 8 Go suffisent, contre seulement 18 % de celles dont c'est l'activité professionnelle principale.
La plupart des répondants ont indiqué passer jusqu'à 20 heures par semaine à entraîner des modèles. A noter que le temps de formation du modèle pendant la nuit peut également être inclus dans ce nombre. Près d'un tiers d'entre eux passe 5 heures par semaine ou moins à entraîner des modèles. Comme celle de l'année dernière, ces résultatsponses montrent que l'entraînement de modèles ne représente qu'une petite partie du travail dans la science des données, la majorité du temps étant consacrée à la préparation et à l'exploration des données.
Les réponses à d'autres questions de notre enquête montrent que les principales activités effectuées dans les notebooks sont l'exploration et la visualisation des données, et que la majorité des répondants travaillent avec des fichiers locaux. Il est donc cohérent que la majorité des répondants indiquent également utiliser des ressources locales. Étonnamment, cela ne diffère pas beaucoup en fonction de la façon dont ils travaillent avec les données. Les personnes dont le travail sur les données est l'activité principale sont aussi enclines à utiliser des ressources locales que celles qui pratiquent la science des données dans le cadre de leurs loisirs ou d'une formation.
La majorité des répondants déclare ne pas utiliser d'outils pour suivre les performances de leurs expériences d'entraînement de modèles. L'utilisation de tels outils est beaucoup plus courante dans les environnements specialisés dans le développement de modèles de machine learning, comme les équipes d'esperts en données de 15 personnes ou plus (58 % des membres de ces équipes ayant répondu en utilisent au moins un), lorsque l'équipe dispose d'un ingénieur spécialisé dans le machine learning (62 %) ou lorsque la personne est impliquée dans la modélisation de machine learning et les ML Ops (63 %).
La majorité des spécialistes des données utilisent des graphiques simples mais significatifs pour explorer et présenter les données. C'est le cas pour la majorité des personnes interrogées, quel que soit le type d'activités, de la collecte de données à l'analyse exploratoire des données, en passant par l'orchestration des données et les ML Ops.
Merci du temps que vous nous avez accordé !
Nous espérons que vous avez trouvé ce rapport intéressant. N'hésitez pas à le partager avec vos amis et collègues.
Si vous avez des questions ou des suggestions, contactez-nous à surveys@jetbrains.com.