Data Science

Teilen:

Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Business Intelligence, Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst, Data Engineer, Data Scientist oder Business Analyst tätig sind.

Inwieweit sind sie an Aktivitäten in den Bereichen Data Science, Data Analytics, Data Engineering oder maschinelles Lernen beteiligt?

Eine recht großer Anteil der Befragten kombiniert Data-Science-Verantwortung mit anderen Aktivitäten. Diese Ergebnisse deuten darauf hin, dass in diesem Bereich eine Demokratisierung stattgefunden hat und Potenzial für Marktwachstum vorhanden ist.

An welchen der folgenden Aktivitäten sind Sie beteiligt?

Bei JetBrains haben wir Datalore entwickelt – eine kollaborative Data-Science-Plattform für Teams. Datalore bietet Datenprofis nicht nur eine hervorragende Programmiererfahrung, sondern auch No-Code-Automatisierungen für Datenauswertungen und Visualisierungen. Dadurch können auch technisch wenig versierte Benutzer*innen Ad-hoc-Berichte und Datendarstellungen in demselben Tool wie das Kerndatenteam erstellen.

Wie haben Sie Data Science, maschinelles Lernen oder Data Engineering gelernt?

Dedizierte Stellen für Datenspezialist*innen, wie Data Scientist, Data Engineer und Machine Learning Engineer, sind relativ neu. Viele unserer Befragten sind in diese Rollen gewechselt, nachdem sie in verwandten Bereichen gearbeitet oder studiert hatten, und mussten sich daher durch Selbststudium oder Onlinekurse weiterbilden. Während Universitätsabschlüsse in MINT-Fächern der traditionelle Weg zu Datenwissenschaften oder maschinellem Lernen sind, zeigen die Trends der vergangenen sieben Jahre, dass immer mehr Menschen mit Bachelor-Abschluss in diese Bereiche einsteigen – ihr Anteil ist von 20% im Jahr 2015 auf 31% im Jahr 2021 angestiegen. Da die Zahl der Absolvent*innen neuer Bachelor-Studiengänge, bei denen Datenkompetenzen im Mittelpunkt stehen, zunimmt, könnten sich diese Ergebnisse zugunsten von Personen verschieben, die diese Kenntnisse durch eine formale Ausbildung erworben haben.

Welche IDEs oder Editoren verwenden Sie für Data Science oder Data Analytics?

Jupyter-Notebooks haben sich als der bevorzugte Editor in den Bereichen Data Science und Datenanalyse durchgesetzt: Rund 40% der Befragten verwenden Notebooks für diese Aktivitäten. Unter denjenigen, die sich mit Datenerfassung und -visualisierung, explorativer Datenanalyse oder Systemmodellierung befassen, war dieser Wert sogar noch höher: 70% dieser Befragten gaben an, Jupyter-Notebooks zu verwenden.

Unsere neuesten Forschungsergebnisse bieten weitere Informationen zu diesem Thema. Wir haben festgestellt, dass von 2019 bis 2020 die Anzahl der Python-3-Notebooks um 87% und die Anzahl der Python-2-Notebooks um 12% gestiegen ist.

Welchen Anteil Ihrer Arbeitszeit verbringen Sie mit Notebooks?

Wofür verwenden Sie Notebooks?

Jupyter-Notebooks gehören nach wie vor zu den beliebtesten Tools: 42% der Befragten nutzen sie, und mehr als 50% von ihnen geben Datenarbeit als ihre Hauptaktivität an. Sie werden in erster Linie für explorative Tätigkeiten verwendet, z. B. für die Untersuchung von Daten und die Erstellung von Modellprototypen. Allerdings verwendet selbst unter denjenigen, die hauptsächlich mit Daten arbeiten, nur eine Minderheit Notebooks für mehr als 40% der Arbeitszeit.

Unterliegen Ihre Notebooks der Versionierung?

Welche Versionierungstools verwenden Sie?

Der Anteil derjenigen, die ihre Notebooks versionieren, ist recht hoch. Das ist ein gutes Zeichen, denn es deutet darauf hin, dass ein Großteil der Datenprofis Notebooks als Code betrachtet, der gepflegt werden muss. Diejenigen, die ihre Notebooks versionieren, verwenden größtenteils Git und GitHub.

Die Versionierung von Jupyter-Notebooks über die Git-Kommandozeile (CLI) kann schwierig sein. Glücklicherweise bietet DataSpell einen reichhaltigen Funktionsumfang für die Arbeit mit Git, sodass Kernaufgaben unkompliziert über die Bedienoberfläche erledigt werden können. Für die Repo-Einrichtung, das Hinzufügen und Pushen von Notebooks und die Überprüfung von Notebook-Unterschieden zwischen Commits müssen Sie sich beispielsweise keinen einzigen Git-Befehl merken! In diesem Artikel erfahren Sie mehr über die Verwendung von Git mit Jupyter-Notebooks in DataSpell.

Mit welchen Arten von Datenquellen arbeiten Sie?

Neben lokalen Dateien sind SQL-Datenbanken nach wie vor die meistverwendeten Datenquellen für Datenspezialist*innen.

Welche Tools verwenden Sie, um Ihre Forschungsergebnisse zu präsentieren?

Mit Datalore können Sie Jupyter-Notebooks innerhalb von Sekunden in ansprechende Daten-Apps verwandeln. Ordnen Sie die Zellen auf der Arbeitsfläche an und veröffentlichen Sie das Ergebnis im statischen oder interaktiven Modus. Ihre Anwender*innen können über einen Link auf den Bericht zugreifen.

Bericht ansehen

Welche Arten von Methoden und Algorithmen verwenden Sie?

Kernalgorithmen des maschinellen Lernens, wie z. B. Regressions- und Baumstruktur-basierte Methoden, werden weiterhin breitflächig eingesetzt. Die Mehrheit der Befragten verwendet jedoch auch neuronale Netze, insbesondere Transformer-Architekturen. In der zunehmenden Benutzerfreundlichkeit und der wachsenden Beliebtheit von Transformernetzen könnte auch die Erklärung für die hohe NLP-Nutzung liegen – mehr als ein Viertel der Befragten gaben an, NLP zu verwenden. Interessanterweise führt nur ein Fünftel der Befragten im Rahmen ihrer Arbeit statistische Tests durch – ein Hinweis darauf, dass ML und Deep Learning die klassische Disziplin Statistik als Kernkompetenzen im Datenbereich überholt haben.

Welche ML-Frameworks verwenden Sie?

TensorFlow ist auf alle Befragten bezogen das gängigste Deep-Learning-Framework. Bei Befragten, die hauptsächlich Datenarbeit betreiben, liegt PyTorch jedoch gleichauf. Scikit-learn ist die meistverwendete Bibliothek für maschinelles Lernen. Allerdings werden spezialisierte Pakete und Frameworks für die Baumstruktur-Modellierung wie XGBoost und LightGBM ebenfalls von einer signifikanten Minderheit der Teilnehmenden verwendet.

Welche Enterprise-ML-Lösungen verwenden Sie?

Die Dienste von Amazon sind die gängigsten Cloud-Lösungen in Unternehmen.

Wie viele Mitglieder hat Ihr Datenteam (Sie eingeschlossen)?

70% der Befragten arbeiten in kleinen Gruppen von maximal 10 Personen. Jede*r Fünfte arbeitet in einem Team mit mehr als 15 Datenfachleuten.

Ist Data Engineer eine separate Arbeitsstelle in Ihrem Team oder Ihrer Datenabteilung?

In fast 50% der Teams oder Abteilungen ist Data Engineer eine separate Arbeitsrolle.

Ist Machine Learning Engineer eine separate Arbeitsstelle in Ihrem Team oder Ihrer Datenabteilung?

Knapp über 50% der Befragten gaben an, dass ihre Teams über spezielle Data Engineers oder Machine Learning Engineers verfügen. Sowohl Data Engineer als auch ML Engineer sind weit gefasste Bezeichnungen, deren Inhalt je nach Unternehmen stark variieren kann. Bei beiden Rollen ist es daher möglich, dass die jeweiligen Arbeitskräfte für ähnliche Aufgaben im Bereich des maschinellen Lernens zuständig sind, wie z. B. Modell-Deployment und Verwaltung der Datenpipeline. Wenig überraschend steigt die Wahrscheinlichkeit, dass eine dieser Rollen in einem Team vorhanden ist, mit der Größe des Teams. Mehr als 80% der Befragten in Datenteams mit bis zu zwei Mitgliedern hatten weder einen dedizierten Data Engineer noch einen ML Engineer, während Befragte in Datenteams mit mehr als 15 Mitgliedern in 79% der Fälle das Vorhandensein der Rolle des Data Engineers und in 65% der Fälle die Besetzung der ML-Engineer-Rolle bestätigten.

Trainieren Sie ML- oder Deep-Learning-Modelle?

Knapp die Hälfte der Befragten trainiert ML- oder Deep-Learning-Modelle. Unter denjenigen, die Datenarbeit als Hauptaktivität betreiben, liegt dieser Wert sogar bei 60%. Dies deutet darauf hin, dass sich die prädiktive Modellierung branchenweit zu einem Kernaspekt der Datenarbeit entwickelt.

Verwenden Sie GPUs für das Training Ihrer Modelle?

Wie viel VRAM benötigen Sie in der Regel für Ihre ML-Aufgaben?

Die meisten Befragten verwenden GPUs zum Trainieren ihrer Machine- oder Deep-Learning-Modelle. Der VRAM-Bedarf variiert je nach der Art und Weise, wie die Datenarbeit durchgeführt wird. 40% der Befragten, die Datenarbeit zu Hobby- oder Ausbildungszwecken betreiben, hielten 8 GB für ausreichend – bei denjenigen, die Datenarbeit als Haupttätigkeit betreiben, gaben sich nur 18% damit zufrieden.

Wie viel Zeit verbringen Sie mit Modelltraining im Monat?

Die meisten Befragten gaben an, dass sie bis zu 20 Stunden pro Woche Modelltraining betreiben – möglicherweise schließt diese Zeit auch das Über-Nacht-Training von Modellen ein. Ein knappes Drittel verbringt 5 Stunden oder weniger pro Woche mit dem Modelltraining. Dies bestätigt frühere Ergebnisse, die gezeigt haben, dass das Modelltraining einen relativ kleinen Teil der Data-Science-Arbeit ausmacht, während der Großteil der Zeit in die Datenvorbereitung und -exploration fließt.

Welche Arten von Rechenressourcen verwenden Sie für Data-Science-Aufgaben?

In den Antworten auf die anderen Fragen unserer Umfrage hat sich bereits gezeigt, dass die Hauptaktivität in Notebooks die Datenexploration und -visualisierung ist und die Mehrheit der Befragten mit lokalen Dateien arbeitet. Passend dazu verwendet die Mehrheit der Befragten auch für ihre Data-Science-Aktivitäten lokale Ressourcen. Überraschenderweise war dabei wenig ausschlaggebend, in welchem Rahmen die Befragten Datenarbeit betreiben. Personen, die Datenarbeit als Haupttätigkeit ausüben, nutzen ebenso häufig lokale Ressourcen wie diejenigen, die nur Hobby- oder Bildungszwecke verfolgen.

Welche speziellen Tools verwenden Sie zum Verfolgen von Modelltraining-Experimenten?

Die Mehrheit der Befragten gab an, keine Tools zu verwenden, um die Leistung ihrer Modelltraining-Experimente zu verfolgen. Die Verwendung solcher Tools ist jedoch viel wahrscheinlicher, wenn das Datenteam mindestens 15 Personen stark ist (58% der Befragten in solchen Teams verwenden mindestens ein Tool), wenn das Team über eine dedizierten Machine-Learning-Engineer-Position verfügt (62%) oder wenn die befragte Person an ML-Modellierung und ML-Ops-Tätigkeiten beteiligt ist (63%). Dies deutet darauf hin, dass solche Tools eher in Umgebungen eingesetzt werden, in denen Spezialwissen zur Entwicklung von Machine-Learning-Modellen vorhanden ist.

Welche Diagramme verwenden Sie am häufigsten für Datenvisualisierungen?

Die Mehrheit der Datenprofis verwendet einfache, aber aussagekräftige Diagramme für die Untersuchung und Darstellung von Daten. Diese Diagramme werden von der Mehrheit der Befragten verwendet, unabhängig von der Art ihrer Datenaktivitäten – von der Datenerfassung und explorativen Datenanalyse bis hin zur Datenorchestrierung und ML-Ops.

Data Science:

2022

Danke, dass Sie sich die Zeit genommen haben!

Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.