Data Science
Teilen:
Die Fragen in diesem Abschnitt wurden Befragten gestellt, die in den Bereichen Business Intelligence, Datenanalyse, Data Engineering oder Maschinelles Lernen mitwirken oder als Data Analyst, Data Engineer, Data Scientist oder Business Analyst tätig sind.
Eine beträchtliche Anzahl der Antwortenden scheint Data-Science-Zuständigkeiten mit anderen Aktivitäten zu kombinieren. Diese Ergebnisse deuten darauf hin, dass eine Demokratisierung dieses Gebiets im Gange ist, was potenzielle Wachstumschancen im Data-Science-Markt impliziert.
PyCharm
Eine universelle Python-IDE für die Entwicklung von Daten-Pipelines, Datenanalysen, Prototyping sowie das Deployment von ML-Modellen. Mit hervorragender Unterstützung für Python, wissenschaftliche Bibliotheken, interaktive Jupyter-Notebooks, Anaconda, SQL- und NoSQL-Datenbanken und mehr.
Die meisten Datenwissenschaftler*innen schätzen die Verwendung bewährter Diagramme zur Datenexploration und -präsentation. Diese Arten von Diagrammen kommen bei verschiedenen datenbezogenen Aufgaben wie Datenerfassung, explorative Datenanalyse, Datenorchestrierung und ML Ops häufig zum Einsatz.
Datalore
Datalore by JetBrains ist eine kollaborative Data-Science- und Analyseplattform, die Teams direkt im Browser nutzen können. Datalore-Notebooks sind mit Jupyter kompatibel und bieten intelligente Programmierhilfen für Python-, SQL-, R- und Scala-Notebooks sowie No-Code-Funktionen für die Visualisierung und Datenverarbeitung. Mit dem Berichtsgenerator von Datalore können Teams ein Notebook voller Codeabschnitte und Experimente als eine klare, datengetriebene Story präsentieren. Teams können Notebooks teilen, in Echtzeit gemeinsam bearbeiten und ihre Projekte in Workspaces strukturieren.
Fast die Hälfte aller Teams und Abteilungen verfügen über einen eigenen Data Engineer oder Machine Learning Engineer.
Spezialisierte Positionen wie Data Scientist, Data Engineer und Machine Learning Engineer sind relativ neu auf dem Stellenmarkt. Viele Befragten wechseln aus verwandten Bereichen in diese Positionen und müssen sich daher im Selbststudium oder durch Onlinekurse neue Fähigkeiten aneignen.
Die Mehrheit der Datenwissenschaftler*innen versioniert Notebooks zwar nicht, aber ein erheblicher Anteil (41%) nimmt diesen Aufwand in Kauf, und die meisten von ihnen verwenden Git oder GitHub für die Versionsverwaltung.
Jupyter-Notebooks sind in verschiedenen Implementierungen sehr populär in den Datenwissenschaften. Zu den üblichen Anwendungsfällen gehören die explorative Datenanalyse, das Experimentieren mit Daten und Datenabfragen sowie das Erstellen von Modellprototypen. Etwa 40% der Datenwissenschaftler*innen verwenden Jupyter-Notebooks, um ihre Arbeitsergebnisse zu präsentieren – interessanterweise verbringen aber viele (fast 50%) nur 10–20% ihrer Arbeitszeit mit Jupyter-Notebooks.
Die Mehrheit verwendet zwar lokale Dateien, aber der Anteil derjenigen, die SQL-Datenbanken nutzen, ist im letzten Jahr um 10 Prozentpunkte gestiegen, was die Bedeutung von SQL für Data Science unterstreicht.
Die meisten befragten Data Scientists verarbeiten individuell erhobene Daten, wobei die häufigsten Datentypen Transaktionsdaten, Zeitreihendaten, Bilder und maschinell erzeugte Daten sind. Interessanterweise arbeiten 30% mit synthetischen Daten – also Daten, die künstlich generiert wurden und nicht auf realen Ereignissen basieren.
Machine-Learning- oder Deep Learning-Modelle werden von etwa 40% aller Befragten trainiert. Bei denjenigen, die Datenarbeit als ihre Hauptaktivität betrachten, beträgt dieser Wert jedoch über 60%. Dieser branchenweite Trend impliziert, dass prädiktive Modellierung sich zum zentralen Aspekt bei der Datenarbeit entwickelt.
Während die Hälfte der Data-Science-Profis ML-Modelle mindestens einmal im Monat neu trainiert oder aktualisiert, verbringen die meisten weniger als 20 Stunden pro Monat mit dieser Aufgabe.
Die große Mehrheit – 81% – der Datenwissenschaftler*innen verwendet GPUs für das Modelltraining. Bei einem effizienten Einsatz können Grafikprozessoren das Training beschleunigen und damit die Modellleistung verbessern. Das macht sie zu einer zunehmend attraktiven Ressource für Forschende und Datenprofis gleichermaßen. Dies unterstreicht auch die Bedeutung und Relevanz von technologischen Innovationen auf dem Gebiet des maschinellen Lernens.
Höhere Rechenleistungen sind ein klarer Trend beim maschinellen Lernen. Fast 80% der Data-Science-Expert*innen verwenden inzwischen 16 GB oder mehr VRAM, während der Anteil derjenigen, die 8 GB verwenden, im vergangenen Jahr um sechs Prozentpunkte zurückgegangen ist.
Kernalgorithmen für maschinelles Lernen wie Regression und auf Baumstrukturen basierende Methoden sind nach wie vor weit verbreitet, obwohl eine beträchtliche Anzahl von Datenwissenschaftler*innen auch neuronale Netze einsetzt. Die zunehmende Beliebtheit und Popularität von Transformernetzen könnte eine Erklärung dafür sein, warum 30% der Befragten mit NLP arbeiten. Interessanterweise gaben nur 24% der Teilnehmenden an, bei ihrer Arbeit statistische Tests zu verwenden, was darauf hindeutet, dass maschinelles Lernen und Deep Learning die klassische Statistik als grundlegende Data-Science-Skills überholt haben.
Die Services von Amazon sind eindeutig die gängigsten Cloud-Lösungen in Unternehmen. Bemerkenswert ist der Anstieg in der Verbreitung von Enterprise-Systemen für maschinelles Lernen – mehr als 10 Prozentpunkte im Vergleich zum Vorjahr.
TensorFlow liegt in der Popularität ganz knapp vor scikit-learn und PyTorch, während Keras und XGBoost ebenfalls solide Nutzungsraten aufweisen. Interessanterweise verwendet ein signifikanter Anteil der Befragten (19%) nach eigenen Angaben keinerlei spezielles Framework.
TensorBoard ist mit einem Anteil von 23% das meistverwendete Tool, gefolgt von MLFlow mit 10% und WandB mit 7%. Zwei Drittel der Data-Science-Profis verwenden jedoch keine speziellen Tools zur Nachverfolgung ihrer Experimente beim Modelltraining.
Maschinelles Lernen und KI haben sich zu maßgeblichen Faktoren im Unternehmensalltag entwickelt. Daher überrascht es nicht, dass fast die Hälfte unserer Befragten verschiedene integrierte KI-Funktionen in ihren Softwareanwendungen nutzt.
Datenqualität ist ein typisches Problem für Fachleute und Unternehmen, die mit Daten arbeiten, denn fast 50% widmen mindestens 30% ihrer Zeit der Datenaufbereitung. Auch in einer Anaconda-Studie hat sich die Datenbereinigung als der zeitaufwändigste Aspekt im Workflow von Datenprofis erwiesen. Fast die Hälfte unserer Befragten nutzt integrierte Entwicklungsumgebungen (IDEs) für diese Art von Aufgaben.
Danke, dass Sie sich die Zeit genommen haben!
Wir hoffen, dass Sie unseren Bericht nützlich fanden. Teilen Sie diesen Bericht im Freundes- und Kollegenkreis.
Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte unter surveys@jetbrains.com.