Industrie: FinTech

Verwendete JetBrains-Produkte: Datalore

Organisationsgröße: 250-500

Land: Großbritannien

TrueLayer

TrueLayer ist eine globale Open-Banking-Plattform, die es jedem Unternehmen leicht macht, bessere Finanzdienstleistungen zu entwickeln. Firmen jeder Größe, von Startups bis hin zu Großkonzernen, nutzen TrueLayer, um ihre Zahlungen abzuwickeln, Finanzinformationen zu erhalten und Kunden in ganz Großbritannien und Europa zu betreuen. TrueLayer wurde 2016 gegründet und genießt heute das Vertrauen von Millionen Verbraucher*innen und Unternehmen auf der ganzen Welt. Die Vision des Unternehmens ist es, ein Finanzsystem zu schaffen, das für alle funktioniert.

Wie TrueLayer Datalore für eine sichere Zusammenarbeit nutzt

Über TrueLayer

Könnten Sie ein paar Worte zu sich selbst sagen?

Ich bin Moreno Raimondo Vendra, Senior Engineer für maschinelles Lernen bei TrueLayer. Unser ML-Team unterstützt andere Teams im Unternehmen, die datenintensive Anforderungen haben. Wir helfen ihnen dabei, große Datenmengen zu verarbeiten und aus den Daten Erkenntnisse zu gewinnen und ML-Modelle zu erzeugen. Meist wirken wir an den zentralen Produkt-Anwendungsfällen von TrueLayer mit, aber manchmal umfasst unsere Arbeit auch Forschungsprojekte.

An welchen Arten von Projekten arbeitet TrueLayer?

TrueLayer ist ein FinTech-Unternehmen und Open-Banking-Anbieter, daher arbeiten wir hauptsächlich mit Finanzdaten. Wir bieten unseren Kunden Zugriff auf Open-Banking-Daten, wobei die DSGVO-Konformität sichergestellt wird. Eines der Projekte, an denen mein Team beteiligt ist, betrifft die Anreicherung von Benutzertransaktionen mit zusätzlichen Händlerinformationen.


Zu lösende Probleme

Warum haben Sie sich nach einer Lösung wie Datalore umgesehen? Welchen Herausforderungen standen Sie gegenüber?

Die Arbeit mit Finanzdaten ist kein triviales Unterfangen, denn man kann die zu bearbeitenden Daten nicht einfach aus einer Produktionsdatenbank oder einem Data Lake herunterladen. Wir müssen einen sicheren Zugriff auf die Daten gewährleisten und Erkenntnisse produzieren, die sich auch leicht weitergeben lassen.

In der Vergangenheit hatten wir ein eigenständiges AWS-EC2-System, bei dem wir uns aufgrund mehrerer VPNs und temporärer persönlicher Zugangsdaten, die oft abliefen, nur unter Schwierigkeiten anmelden konnten. Es war nicht möglich, die Größe der Instanz unkompliziert zu erhöhen, um mit größeren Datenmengen zu arbeiten. Und das Onboarding neuer Teammitglieder war natürlich mühsam.


„Datalore ermöglichte einen ergonomischen Zugriff auf unsere Daten und erfüllte gleichzeitig die Sicherheitsanforderungen, was für uns ein entscheidender Vorteil war. Dadurch ist die Zusammenarbeit sowohl innerhalb unseres ML-Teams als auch mit unseren Stakeholdern viel einfacher geworden.“

— Moreno Raimondo Vendra, Senior Engineer für maschinelles Lernen, TrueLayer


Die Datalore-Erfahrung

Wer verwendet Datalore in Ihrem Team?

In unserem dreiköpfigen ML-Team verwenden wir Datalore intensiv, und wir haben im Unternehmen noch zwei weitere Nutzer.

Mit welchen Arten von Daten arbeiten Sie?

Die Daten, mit denen wir arbeiten, werden in der Regel in operativen Datenbanken erzeugt, aber wir speichern dann einen Teil dieser Daten in unserem Data Lake in AWS S3. Der Datentyp, mit dem wir hauptsächlich arbeiten, umfasst entpersonalisierte Metadaten zu Open-Banking-Transaktionen. Wir greifen in der Regel über den Python-Client für S3 auf diese zu.

Wir arbeiten auch mit Daten, die von unseren eigenen Diensten erzeugt werden, z. B. Protokollen und Kennzahlen. Mit Datalore ist es uns gelungen, komplexe Probleme zu debuggen, die das Abrufen von Hunderten Gigabytes an Daten erforderten. Darüber hinaus konnten wir Codemuster erkennen, Daten visualisieren und unsere Erkenntnisse teilen.

Wie erforschen Sie Daten in Datalore?

Wir arbeiten hauptsächlich mit pandas und nutzen häufig den Visualize-Tab, der wirklich intuitiv zu bedienen ist. Daten lassen sich damit viel schneller und angenehmer erkunden.

Das ist auch etwas, woran wir gemeinsam arbeiten. Jemand ruft die Daten ab und gibt das Notebook zum gemeinsamen Bearbeiten für das Team frei, und jemand anderes greift es später auf und arbeitet damit weiter. Wir versuchen, aus jedem Notebook einen Bericht zu erstellen. Nachdem die Analyse abgeschlossen ist, fügen wir immer eine Schlussfolgerung hinzu und wenden dabei Storytelling-Methoden an, um ein aussagekräftiges Ergebnis zu erzielen.

Mit Datalore ist dieses datenbezogene Storytelling sehr gut möglich, denn wir haben einen zentralen Ort, um Daten abzurufen, komplexe Manipulationen in Python durchzuführen (und dabei so tief vorzudringen, wie wir wollen), Visualisierungen zu erstellen und die Ergebnisse in einem passenden Format für unsere Geschäftskunden zu exportieren. Für all dies benötigen wir nur eine einzige Anwendung, statt zwischen mehreren Tools hin und her wechseln zu müssen. Wir können PDF- und statische Berichte erzeugen und sogar regelmäßige Produktionsläufe nach Zeitplan ausführen, wobei Änderungen an Funktionen und Kennzahlen berücksichtigt werden. Die Möglichkeit, den Verlauf dieser Läufe nachzuvollziehen, war für uns äußerst nützlich.


„Die Datenexploration und das Reporting waren sehr überzeugende Anwendungsfälle für uns. Wir nutzen Datalore aber auch in Bereichen wie dem Modell-Prototyping und Training und haben dabei festgestellt, dass der einfache Datenzugriff unsere Experimente beschleunigt hat.“


Nachdem wir jetzt Notebooks in Workspaces strukturieren können, können wir ganz einfach innerhalb eines Projekts oder Themas den Überblick darüber behalten, woran die einzelnen Teammitglieder gearbeitet haben. Im Bereich Softwareentwicklung ist dieses Problem bereits gelöst, denn es gibt GitHub, GitLab und andere Git-ähnliche Plattformen. Aber im Bereich Data Science und Notebook-Zusammenarbeit ist dies für ein Unternehmen keine triviale Frage.


„Datalore hat die Zusammenarbeit wesentlich erleichtert und wir haben jetzt einen Ort, an dem wir all diese wertvolle Arbeit aufbewahren und strukturieren können.“


Können Sie uns die Zusammenarbeit in Ihrem Team an einem Beispiel veranschaulichen?

Bei TrueLayer arbeiten wir in einem Team von ML-Entwickler*innen zusammen, und unsere gängigste Arbeitsmethode besteht darin, uns gemeinsam an ein Notebook zu setzen und Paarprogrammierung zu betreiben.

Für die Programmierung verwenden wir auch die Plugins für PyCharm und Code With Me. Wir finden es toll, dass die Oberfläche und die Erfahrung bei der Echtzeit-Codebearbeitung bei den unterschiedlichen Tools sehr ähnlich sind. Zum Beispiel führten wir einmal ein Trainingsskript für ein ML-Modell aus und konnten dabei unter Attached files in Echtzeit an einem Python-Skript zusammenarbeiten. So konnten wir gemeinsam den Code bearbeiten, statt uns nur über Videochat abzustimmen. Dadurch wurde das Aufspüren und Beheben von Problemen einfacher und schneller. Die Möglichkeit, die Arbeit in Workspaces zu strukturieren und dabei den Überblick über den Verlauf zu behalten, hat die Produktivität der Teams verbessert.

Wie kombinieren Sie in Ihren Projekten PyCharm, Code With Me und Datalore?

Wir haben in unseren Clustern Modellserver im Betrieb, die im Wesentlichen Python-APIs bereitstellen. Normalerweise erstellen wir ein Trainings-Notebook in Datalore, trainieren das Modell, erstellen das Modellartefakt (ein Archiv) und stellen dieses dann in unserem Cluster bereit. Anschließend entwickeln wir mit PyCharm und Code With Me die Modellserver-APIs. Dank der vertrauten Bedienoberflächen der verschiedenen JetBrains-Tools läuft dieser Prozess für das Team sehr unkompliziert ab.

Wie geht es weiter?

In letzter Zeit gab es reges Interesse von unseren datenaffinen Softwareentwickler*innen und Data Engineers, die sich einen viel einfacheren Zugang zu ihren Datenprodukten wünschen. Aktuell wissen viele Entwickler*innen bereits, was ein Jupyter-Notebook ist, aber eine unkomplizierte Bereitstellung von Datenverbindungen über Datalore würde den Einstieg für sie erheblich erleichtern.

Ähnliche Kundenstudien

Hunters

Netanel Golani, Bedrohungsexperte bei Hunters

Es ist erst einen Monat her, dass das Data-Science-Team von Hunters Datalore eingeführt hat, und wir haben bereits Verbesserungen bei der Produktivität und Bedienfreundlichkeit in unserem täglichen Arbeitsablauf beobachtet – insbesondere bei der Arbeit mit einer Vielzahl von Kundendatenquellen.

Center for New Data

Chad Rosenberg, Head of Technology, Center for New Data

Datalore bietet uns Möglichkeiten, mit unseren Daten zu arbeiten, die uns in Airflow einfach nicht zur Verfügung stehen – wir können zum Beispiel die Pipeline-Ergebnisse debuggen, die Webhooks testen und die Daten mit automatischen Plotting-Funktionen unkompliziert visualisieren. Die Verwendung des nativen Snowflake-Konnektors in Datalore sowie der programmatischen Konnektoren in Pandas hat bei der Arbeit an geteilten Notebooks definitiv Zeit gespart.

Chainalysis

Surya Rastogi, Senior Staff Data Scientist, Chainalysis

Eine unserer größten Herausforderungen besteht darin, dass der Blockchain-Bereich sehr schnell expandiert und es kontinuierlich neue Daten gibt, die erfasst und analysiert werden müssen. Als Unternehmen verwenden wir zahlreiche Funktionen zur Datenerfassung und -verarbeitung, und wir gehen davon aus, dass ihre Zahl weiter zunehmen wird.

Weitere Kundenstudien