Data Science

Teilen:

Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Business Intelligence, Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst, Data Engineer, Data Scientist oder Business Analyst tätig sind.

Inwieweit sind Sie an Aktivitäten in den Bereichen Data Science, Data Analytics oder maschinelles Lernen beteiligt?

DatenanalysenData ScienceMaschinelles Lernen
19%17%16%Es ist meine primäre berufliche Aktivität
36%31%23%Es ist eine sekundäre berufliche Aktivität
14%16%18%Es dient zur Weiterbildung
18%20%24%Es ist nur ein Hobby
12%16%19%Ich beschäftige mich nicht mit Data Science
12%36%

Eine beträchtliche Anzahl der Antwortenden scheint Data-Science-Zuständigkeiten mit anderen Aktivitäten zu kombinieren. Diese Ergebnisse deuten darauf hin, dass eine Demokratisierung dieses Gebiets im Gange ist, was potenzielle Wachstumschancen im Data-Science-Markt impliziert.

Ist Machine Learning Engineer eine separate Arbeitsstelle in Ihrem Team oder Ihrer Datenabteilung?

PyCharm

Eine universelle Python-IDE für die Entwicklung von Daten-Pipelines, Datenanalysen, Prototyping sowie das Deployment von ML-Modellen. Mit hervorragender Unterstützung für Python, wissenschaftliche Bibliotheken, interaktive Jupyter-Notebooks, Anaconda, SQL- und NoSQL-Datenbanken und mehr.

Welche Arten von Daten analysieren Sie?

33%

Transaktionsdaten

30%

Zeitreihen-Daten

27%

Foto- oder Bilddateien

26%

Maschinell erzeugte Daten

23%

Webseiten

20%

Web-Clickstream-Daten

18%

Kundeninteraktionen

An welchen der folgenden Aktivitäten sind Sie beteiligt?

46%

Datenvisualisierung

43%

Datenerfassung/Data Scraping

33%

Explorative Datenanalyse

31%

Modellierung für maschinelles Lernen

31%

Datenpipelines

23%

Operations im Bereich maschinelles Lernen

21%

Speicherarchitektur

Welche Diagrammtypen verwenden Sie am häufigsten für Datenvisualisierungen?

64%

Liniendiagramm

58%

Balkendiagramm

57%

Streudiagramm

54%

Histogramm

33%

Gestapeltes Balkendiagramm

31%

Gruppiertes Balkendiagramm

13%

Violin-Plot

4%

Sonstiges

10%

Keine

Die meisten Datenwissenschaftler*innen schätzen die Verwendung bewährter Diagramme zur Datenexploration und -präsentation. Diese Arten von Diagrammen kommen bei verschiedenen datenbezogenen Aufgaben wie Datenerfassung, explorative Datenanalyse, Datenorchestrierung und ML Ops häufig zum Einsatz.

Datalore

Datalore by JetBrains ist eine kollaborative Data-Science- und Analyseplattform, die Teams direkt im Browser nutzen können. Datalore-Notebooks sind mit Jupyter kompatibel und bieten intelligente Programmierhilfen für Python-, SQL-, R- und Scala-Notebooks sowie No-Code-Funktionen für die Visualisierung und Datenverarbeitung. Mit dem Berichtsgenerator von Datalore können Teams ein Notebook voller Codeabschnitte und Experimente als eine klare, datengetriebene Story präsentieren. Teams können Notebooks teilen, in Echtzeit gemeinsam bearbeiten und ihre Projekte in Workspaces strukturieren.

Ist Data Engineer eine separate Arbeitsstelle in Ihrem Team oder Ihrer Datenabteilung?

Fast die Hälfte aller Teams und Abteilungen verfügen über einen eigenen Data Engineer oder Machine Learning Engineer.

Wie haben Sie Data Science, maschinelles Lernen oder Data Engineering gelernt?

56%

Selbststudium

41%

Universitätsstudien in Programmierung oder Datenanalyse

36%

Teilnahme an Onlinekursen

19%

Umstieg von einem Job in der Softwareentwicklung

4%

Sonstiges

Spezialisierte Positionen wie Data Scientist, Data Engineer und Machine Learning Engineer sind relativ neu auf dem Stellenmarkt. Viele Befragten wechseln aus verwandten Bereichen in diese Positionen und müssen sich daher im Selbststudium oder durch Onlinekurse neue Fähigkeiten aneignen.

Wie viele Mitglieder hat Ihr Datenteam (Sie eingeschlossen)?

20%

1–2

15%

3

11%

4

9%

5

16%

6–7

12%

8–10

7%

11–15

11%

Mehr als 15

Über 50% derjenigen, die mit Daten arbeiten, gehören einem Team von fünf oder mehr Personen an.

Welche IDEs oder Editoren verwenden Sie für Data Science oder Data Analytics?

40%

Visual Studio Code

35%

Jupyter-Notebooks

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

Welchen Anteil Ihrer Arbeitszeit verbringen Sie mit Notebooks?

48%

10–20%

23%

20–40%

20%

Mehr als 40%

10%

Ich verwende keine Notebooks

Wofür verwenden Sie Notebooks?

71%

Explorative Datenanalyse

66%

Experimente mit Daten/Datenabfragen

65%

Visualisierung

43%

Modell-Prototyping

9%

Orchestrierung

1%

Sonstiges

Unterliegen Ihre Notebooks der Versionierung?

Welche Versionierungstools verwenden Sie?

57%

Git

57%

GitHub

23%

GitLab

20%

Versionierung in Editor/IDE

12%

Ich erstelle mehrere Kopien meiner Notebooks

2%

Sonstiges

Die Mehrheit der Datenwissenschaftler*innen versioniert Notebooks zwar nicht, aber ein erheblicher Anteil (41%) nimmt diesen Aufwand in Kauf, und die meisten von ihnen verwenden Git oder GitHub für die Versionsverwaltung.

Welche Tools verwenden Sie, um Ihre Forschungsergebnisse zu präsentieren?

39%

PowerPoint, Google Präsentationen o. ä.

37%

Ich präsentiere das Notebook

36%

Tabelleneditor

25%

MS Word, Google Docs oder ähnlich

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

Sonstiges

Jupyter-Notebooks sind in verschiedenen Implementierungen sehr populär in den Datenwissenschaften. Zu den üblichen Anwendungsfällen gehören die explorative Datenanalyse, das Experimentieren mit Daten und Datenabfragen sowie das Erstellen von Modellprototypen. Etwa 40% der Datenwissenschaftler*innen verwenden Jupyter-Notebooks, um ihre Arbeitsergebnisse zu präsentieren – interessanterweise verbringen aber viele (fast 50%) nur 10–20% ihrer Arbeitszeit mit Jupyter-Notebooks.

Welche Arten von Rechenressourcen verwenden Sie für Data-Science-Aufgaben?

57%

Lokale Ressourcen

28%

On-Premises-Unternehmensserver

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

Sonstiges

15%

Keine

Die Mehrheit der Befragten nutzt bei ihrer Data-Science-Arbeit lokale Ressourcen.

Mit welchen Arten von Datenquellen arbeiten Sie?

67%

64%

Lokale Dateien

52%

62%

SQL-Datenbanken

24%

23%

​​Amazon S3

19%

15%

Big Data

14%

15%

Google-Dateispeicher

8%

9%

Azure-Dateispeicher

5%

4%

Sonstiges

Die Mehrheit verwendet zwar lokale Dateien, aber der Anteil derjenigen, die SQL-Datenbanken nutzen, ist im letzten Jahr um 10 Prozentpunkte gestiegen, was die Bedeutung von SQL für Data Science unterstreicht.

Welche Art von Daten nutzen Sie am meisten?

Nutzen Sie synthetische Daten bei Ihrer Arbeit?

Die meisten befragten Data Scientists verarbeiten individuell erhobene Daten, wobei die häufigsten Datentypen Transaktionsdaten, Zeitreihendaten, Bilder und maschinell erzeugte Daten sind. Interessanterweise arbeiten 30% mit synthetischen Daten – also Daten, die künstlich generiert wurden und nicht auf realen Ereignissen basieren.

Trainieren Sie ML- oder Deep-Learning-Modelle?

Machine-Learning- oder Deep Learning-Modelle werden von etwa 40% aller Befragten trainiert. Bei denjenigen, die Datenarbeit als ihre Hauptaktivität betrachten, beträgt dieser Wert jedoch über 60%. Dieser branchenweite Trend impliziert, dass prädiktive Modellierung sich zum zentralen Aspekt bei der Datenarbeit entwickelt.

Wie oft werden Ihre ML-Modelle neu trainiert oder aktualisiert?

27%

Häufiger als einmal im Monat

23%

Monatlich

18%

Vierteljährlich

7%

Zweimal im Jahr

7%

Jährlich

18%

Nie

Wie viel Zeit verbringen Sie mit Modelltraining im Monat?

27%

0–5 Stunden

36%

5–20 Stunden

23%

20–50 Stunden

8%

50–100 Stunden

6%

Mehr als 100 Stunden

Während die Hälfte der Data-Science-Profis ML-Modelle mindestens einmal im Monat neu trainiert oder aktualisiert, verbringen die meisten weniger als 20 Stunden pro Monat mit dieser Aufgabe.

Verwenden Sie GPUs für das Training Ihrer Modelle?

Die große Mehrheit – 81% – der Datenwissenschaftler*innen verwendet GPUs für das Modelltraining. Bei einem effizienten Einsatz können Grafikprozessoren das Training beschleunigen und damit die Modellleistung verbessern. Das macht sie zu einer zunehmend attraktiven Ressource für Forschende und Datenprofis gleichermaßen. Dies unterstreicht auch die Bedeutung und Relevanz von technologischen Innovationen auf dem Gebiet des maschinellen Lernens.

Wie viel VRAM benötigen Sie in der Regel für Ihre ML-Aufgaben?

28%

22%

8 GB

33%

29%

16 GB

23%

22%

32 GB

10%

14%

64 GB

5%

6%

128 GB

8%

Mehr als 128 GB

Höhere Rechenleistungen sind ein klarer Trend beim maschinellen Lernen. Fast 80% der Data-Science-Expert*innen verwenden inzwischen 16 GB oder mehr VRAM, während der Anteil derjenigen, die 8 GB verwenden, im vergangenen Jahr um sechs Prozentpunkte zurückgegangen ist.

Welche Arten von Methoden und Algorithmen verwenden Sie?

47%

Lineare oder logistische Regression

47%

Neuronale Netze

38%

Entscheidungsbäume oder Zufallswälder

36%

Clustering-Methoden

30%

NLP-Methoden

25%

Bayessche Ansätze

24%

Transformernetze

Kernalgorithmen für maschinelles Lernen wie Regression und auf Baumstrukturen basierende Methoden sind nach wie vor weit verbreitet, obwohl eine beträchtliche Anzahl von Datenwissenschaftler*innen auch neuronale Netze einsetzt. Die zunehmende Beliebtheit und Popularität von Transformernetzen könnte eine Erklärung dafür sein, warum 30% der Befragten mit NLP arbeiten. Interessanterweise gaben nur 24% der Teilnehmenden an, bei ihrer Arbeit statistische Tests zu verwenden, was darauf hindeutet, dass maschinelles Lernen und Deep Learning die klassische Statistik als grundlegende Data-Science-Skills überholt haben.

Welche Enterprise-ML-Lösungen verwenden Sie?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Die Services von Amazon sind eindeutig die gängigsten Cloud-Lösungen in Unternehmen. Bemerkenswert ist der Anstieg in der Verbreitung von Enterprise-Systemen für maschinelles Lernen – mehr als 10 Prozentpunkte im Vergleich zum Vorjahr.

Welche ML-Frameworks verwenden Sie?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow liegt in der Popularität ganz knapp vor scikit-learn und PyTorch, während Keras und XGBoost ebenfalls solide Nutzungsraten aufweisen. Interessanterweise verwendet ein signifikanter Anteil der Befragten (19%) nach eigenen Angaben keinerlei spezielles Framework.

Welche Tools verwenden Sie zum Verfolgen von Modelltraining-Experimenten?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

Sonstiges

66%

Keine

TensorBoard ist mit einem Anteil von 23% das meistverwendete Tool, gefolgt von MLFlow mit 10% und WandB mit 7%. Zwei Drittel der Data-Science-Profis verwenden jedoch keine speziellen Tools zur Nachverfolgung ihrer Experimente beim Modelltraining.

Welche der folgenden Beschreibungen trifft am besten auf den Einsatz von maschinellem Lernen in Ihrem Unternehmen zu?

47%

Verwendung von KI-basierten Funktionen in Produkten oder Services

30%

Unterstützung der Produktforschung und -entwicklung

28%

Verwendung in Produktionsanwendungen

28%

Mögliche Anwendungen werden noch erforscht/erprobt

25%

Verbessertes Verständnis von Unternehmensdaten

22%

Reduzierung der Geschäftskosten

21%

Unterstützung anderer Geschäftsfunktionen

Maschinelles Lernen und KI haben sich zu maßgeblichen Faktoren im Unternehmensalltag entwickelt. Daher überrascht es nicht, dass fast die Hälfte unserer Befragten verschiedene integrierte KI-Funktionen in ihren Softwareanwendungen nutzt.

Welche Enterprise-Cloud-Lösungen verwenden Sie?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

Welche der folgenden datengesteuerten Aktivitäten sind für Sie oder Ihr Unternehmen am schwierigsten durchzuführen?

47%

Datenqualität

29%

Datensicherheit und -Governance

28%

Datenaufbereitung/-umwandlung

28%

Datenanalyse

23%

Datenerstellung/-erfassung

22%

Datenintegration

20%

Datenmigration

Wie viel Prozent der Arbeitszeit Ihres Teams wird im Durchschnitt mit der Verwaltung, Bereinigung oder Kategorisierung von Daten verbracht?

Welche Tools verwenden Sie für die Datenbereinigung?

47%

IDEs

27%

Cloud-Plattformen

27%

Tabellenkalkulationen

3%

Spezialisierte Tools wie OpenRefine

5%

Sonstiges

29%

Ich führe keine Datenbereinigung durch

Datenqualität ist ein typisches Problem für Fachleute und Unternehmen, die mit Daten arbeiten, denn fast 50% widmen mindestens 30% ihrer Zeit der Datenaufbereitung. Auch in einer Anaconda-Studie hat sich die Datenbereinigung als der zeitaufwändigste Aspekt im Workflow von Datenprofis erwiesen. Fast die Hälfte unserer Befragten nutzt integrierte Entwicklungsumgebungen (IDEs) für diese Art von Aufgaben.

Data Science:

2023

Danke, dass Sie sich die Zeit genommen haben!

Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.