Data Science

Teilen:

Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Business Intelligence, Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst, Data Engineer, Data Scientist oder Business Analyst tätig sind.

Inwieweit sind Sie an Aktivitäten in den Bereichen Data Science, Data Analytics oder maschinelles Lernen beteiligt?

Eine beträchtliche Anzahl der Antwortenden scheint Data-Science-Zuständigkeiten mit anderen Aktivitäten zu kombinieren. Diese Ergebnisse deuten darauf hin, dass eine Demokratisierung dieses Gebiets im Gange ist, was potenzielle Wachstumschancen im Data-Science-Markt impliziert.

Ist Machine Learning Engineer eine separate Arbeitsstelle in Ihrem Team oder Ihrer Datenabteilung?

PyCharm

Eine universelle Python-IDE für die Entwicklung von Daten-Pipelines, Datenanalysen, Prototyping sowie das Deployment von ML-Modellen. Mit hervorragender Unterstützung für Python, wissenschaftliche Bibliotheken, interaktive Jupyter-Notebooks, Anaconda, SQL- und NoSQL-Datenbanken und mehr.

Welche Arten von Daten analysieren Sie?

An welchen der folgenden Aktivitäten sind Sie beteiligt?

Welche Diagrammtypen verwenden Sie am häufigsten für Datenvisualisierungen?

Die meisten Datenwissenschaftler*innen schätzen die Verwendung bewährter Diagramme zur Datenexploration und -präsentation. Diese Arten von Diagrammen kommen bei verschiedenen datenbezogenen Aufgaben wie Datenerfassung, explorative Datenanalyse, Datenorchestrierung und ML Ops häufig zum Einsatz.

Datalore

Datalore by JetBrains ist eine kollaborative Data-Science- und Analyseplattform, die Teams direkt im Browser nutzen können. Datalore-Notebooks sind mit Jupyter kompatibel und bieten intelligente Programmierhilfen für Python-, SQL-, R- und Scala-Notebooks sowie No-Code-Funktionen für die Visualisierung und Datenverarbeitung. Mit dem Berichtsgenerator von Datalore können Teams ein Notebook voller Codeabschnitte und Experimente als eine klare, datengetriebene Story präsentieren. Teams können Notebooks teilen, in Echtzeit gemeinsam bearbeiten und ihre Projekte in Workspaces strukturieren.

Ist Data Engineer eine separate Arbeitsstelle in Ihrem Team oder Ihrer Datenabteilung?

Fast die Hälfte aller Teams und Abteilungen verfügen über einen eigenen Data Engineer oder Machine Learning Engineer.

Wie haben Sie Data Science, maschinelles Lernen oder Data Engineering gelernt?

Spezialisierte Positionen wie Data Scientist, Data Engineer und Machine Learning Engineer sind relativ neu auf dem Stellenmarkt. Viele Befragten wechseln aus verwandten Bereichen in diese Positionen und müssen sich daher im Selbststudium oder durch Onlinekurse neue Fähigkeiten aneignen.

Wie viele Mitglieder hat Ihr Datenteam (Sie eingeschlossen)?

Über 50% derjenigen, die mit Daten arbeiten, gehören einem Team von fünf oder mehr Personen an.

Welche IDEs oder Editoren verwenden Sie für Data Science oder Data Analytics?

Welchen Anteil Ihrer Arbeitszeit verbringen Sie mit Notebooks?

Wofür verwenden Sie Notebooks?

Unterliegen Ihre Notebooks der Versionierung?

Welche Versionierungstools verwenden Sie?

Die Mehrheit der Datenwissenschaftler*innen versioniert Notebooks zwar nicht, aber ein erheblicher Anteil (41%) nimmt diesen Aufwand in Kauf, und die meisten von ihnen verwenden Git oder GitHub für die Versionsverwaltung.

Welche Tools verwenden Sie, um Ihre Forschungsergebnisse zu präsentieren?

Jupyter-Notebooks sind in verschiedenen Implementierungen sehr populär in den Datenwissenschaften. Zu den üblichen Anwendungsfällen gehören die explorative Datenanalyse, das Experimentieren mit Daten und Datenabfragen sowie das Erstellen von Modellprototypen. Etwa 40% der Datenwissenschaftler*innen verwenden Jupyter-Notebooks, um ihre Arbeitsergebnisse zu präsentieren – interessanterweise verbringen aber viele (fast 50%) nur 10–20% ihrer Arbeitszeit mit Jupyter-Notebooks.

Welche Arten von Rechenressourcen verwenden Sie für Data-Science-Aufgaben?

Die Mehrheit der Befragten nutzt bei ihrer Data-Science-Arbeit lokale Ressourcen.

Mit welchen Arten von Datenquellen arbeiten Sie?

Die Mehrheit verwendet zwar lokale Dateien, aber der Anteil derjenigen, die SQL-Datenbanken nutzen, ist im letzten Jahr um 10 Prozentpunkte gestiegen, was die Bedeutung von SQL für Data Science unterstreicht.

Welche Art von Daten nutzen Sie am meisten?

Nutzen Sie synthetische Daten bei Ihrer Arbeit?

Die meisten befragten Data Scientists verarbeiten individuell erhobene Daten, wobei die häufigsten Datentypen Transaktionsdaten, Zeitreihendaten, Bilder und maschinell erzeugte Daten sind. Interessanterweise arbeiten 30% mit synthetischen Daten – also Daten, die künstlich generiert wurden und nicht auf realen Ereignissen basieren.

Trainieren Sie ML- oder Deep-Learning-Modelle?

Machine-Learning- oder Deep Learning-Modelle werden von etwa 40% aller Befragten trainiert. Bei denjenigen, die Datenarbeit als ihre Hauptaktivität betrachten, beträgt dieser Wert jedoch über 60%. Dieser branchenweite Trend impliziert, dass prädiktive Modellierung sich zum zentralen Aspekt bei der Datenarbeit entwickelt.

Wie oft werden Ihre ML-Modelle neu trainiert oder aktualisiert?

Wie viel Zeit verbringen Sie mit Modelltraining im Monat?

Während die Hälfte der Data-Science-Profis ML-Modelle mindestens einmal im Monat neu trainiert oder aktualisiert, verbringen die meisten weniger als 20 Stunden pro Monat mit dieser Aufgabe.

Verwenden Sie GPUs für das Training Ihrer Modelle?

Die große Mehrheit – 81% – der Datenwissenschaftler*innen verwendet GPUs für das Modelltraining. Bei einem effizienten Einsatz können Grafikprozessoren das Training beschleunigen und damit die Modellleistung verbessern. Das macht sie zu einer zunehmend attraktiven Ressource für Forschende und Datenprofis gleichermaßen. Dies unterstreicht auch die Bedeutung und Relevanz von technologischen Innovationen auf dem Gebiet des maschinellen Lernens.

Wie viel VRAM benötigen Sie in der Regel für Ihre ML-Aufgaben?

Höhere Rechenleistungen sind ein klarer Trend beim maschinellen Lernen. Fast 80% der Data-Science-Expert*innen verwenden inzwischen 16 GB oder mehr VRAM, während der Anteil derjenigen, die 8 GB verwenden, im vergangenen Jahr um sechs Prozentpunkte zurückgegangen ist.

Welche Arten von Methoden und Algorithmen verwenden Sie?

Kernalgorithmen für maschinelles Lernen wie Regression und auf Baumstrukturen basierende Methoden sind nach wie vor weit verbreitet, obwohl eine beträchtliche Anzahl von Datenwissenschaftler*innen auch neuronale Netze einsetzt. Die zunehmende Beliebtheit und Popularität von Transformernetzen könnte eine Erklärung dafür sein, warum 30% der Befragten mit NLP arbeiten. Interessanterweise gaben nur 24% der Teilnehmenden an, bei ihrer Arbeit statistische Tests zu verwenden, was darauf hindeutet, dass maschinelles Lernen und Deep Learning die klassische Statistik als grundlegende Data-Science-Skills überholt haben.

Welche Enterprise-ML-Lösungen verwenden Sie?

Die Services von Amazon sind eindeutig die gängigsten Cloud-Lösungen in Unternehmen. Bemerkenswert ist der Anstieg in der Verbreitung von Enterprise-Systemen für maschinelles Lernen – mehr als 10 Prozentpunkte im Vergleich zum Vorjahr.

Welche ML-Frameworks verwenden Sie?

TensorFlow liegt in der Popularität ganz knapp vor scikit-learn und PyTorch, während Keras und XGBoost ebenfalls solide Nutzungsraten aufweisen. Interessanterweise verwendet ein signifikanter Anteil der Befragten (19%) nach eigenen Angaben keinerlei spezielles Framework.

Welche Tools verwenden Sie zum Verfolgen von Modelltraining-Experimenten?

TensorBoard ist mit einem Anteil von 23% das meistverwendete Tool, gefolgt von MLFlow mit 10% und WandB mit 7%. Zwei Drittel der Data-Science-Profis verwenden jedoch keine speziellen Tools zur Nachverfolgung ihrer Experimente beim Modelltraining.

Welche der folgenden Beschreibungen trifft am besten auf den Einsatz von maschinellem Lernen in Ihrem Unternehmen zu?

Maschinelles Lernen und KI haben sich zu maßgeblichen Faktoren im Unternehmensalltag entwickelt. Daher überrascht es nicht, dass fast die Hälfte unserer Befragten verschiedene integrierte KI-Funktionen in ihren Softwareanwendungen nutzt.

Welche Enterprise-Cloud-Lösungen verwenden Sie?

Welche der folgenden datengesteuerten Aktivitäten sind für Sie oder Ihr Unternehmen am schwierigsten durchzuführen?

Wie viel Prozent der Arbeitszeit Ihres Teams wird im Durchschnitt mit der Verwaltung, Bereinigung oder Kategorisierung von Daten verbracht?

Welche Tools verwenden Sie für die Datenbereinigung?

Datenqualität ist ein typisches Problem für Fachleute und Unternehmen, die mit Daten arbeiten, denn fast 50% widmen mindestens 30% ihrer Zeit der Datenaufbereitung. Auch in einer Anaconda-Studie hat sich die Datenbereinigung als der zeitaufwändigste Aspekt im Workflow von Datenprofis erwiesen. Fast die Hälfte unserer Befragten nutzt integrierte Entwicklungsumgebungen (IDEs) für diese Art von Aufgaben.

Data Science:

2023

Danke, dass Sie sich die Zeit genommen haben!

Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.