Industrie: Blockchain
Verwendete JetBrains-Produkte: Datalore
Organisationsgröße: 500-1000
Land: Vereinigte Staaten
Chainalysis versorgt Behörden, Börsen, Finanzinstitute sowie Versicherungs- und Cybersicherheitsunternehmen in über 70 Ländern mit Daten, Software, Dienstleistungen und Forschungsservices. Unsere Datenplattform dient als Grundlage für Ermittlungs-, Compliance- und Risikomanagement-Tools, die unter anderem eingesetzt wurden, um einige der weltweit bekanntesten Fälle von Cyberkriminalität aufzuklären und den Verbraucherzugang zu Kryptowährungen auf sichere Weise auszuweiten.
Hallo, ich bin Surya Rastogi, Senior Staff Data Scientist bei Chainalysis. Ich verbringe eine Menge Zeit damit, verschiedene Blockchain-Daten zu analysieren und zahlreichen unternehmensinternen Teams Analysetools zur Verfügung zu stellen. Derzeit leite ich die Entwicklung unserer Forschungstools.
Chainalysis versorgt Behörden, Börsen, Finanzinstitute sowie Versicherungs- und Cybersicherheitsunternehmen in über 70 Ländern mit Daten, Software, Dienstleistungen und Forschungsservices. Die Datenplattform des Unternehmens dient als Grundlage für Ermittlungs-, Compliance- und Risikomanagement-Tools, die unter anderem eingesetzt wurden, um einige der weltweit bekanntesten Fälle von Cyberkriminalität aufzuklären und den Verbraucherzugang zu Kryptowährungen auf sichere Weise auszuweiten.
Eine unserer größten Herausforderungen besteht darin, dass der Blockchain-Bereich sehr schnell expandiert und es kontinuierlich neue Daten gibt, die erfasst und analysiert werden müssen. Als Unternehmen verwenden wir zahlreiche Funktionen zur Datenerfassung und -verarbeitung, und wir gehen davon aus, dass ihre Zahl weiter zunehmen wird.
„Datalore stellt uns eine übergeordnete Schnittstelle zu all diesen Daten bereit, sodass Data Scientists in den unterschiedlichen Datenquellen stöbern und sie kombinieren können, um Erkenntnisse zu gewinnen.“
— Surya Rastogi, Senior Staff Data Scientist, Chainalysis
Insgesamt haben 35 Personen bei Chainalysis Zugang zu Datalore. Die Forschungsabteilung, die sich auf F&E und Deep Tech konzentriert, verwaltet die Datalore-Installation und bietet Zugang zu anderen Data-Science-Funktionen. Wir haben produktbezogene Data Scientists, die Daten für ein Produkt analysieren und sie auf mögliche Ausreißer und Ungereimtheiten überprüfen. Data Science Engineers nutzen Datalore seit der kürzlichen Einführung der Zeitplanungsfunktion mehr denn je. Traditionell schreiben diese Entwickler*innen Airflow-DAGs, aber bei einigen Anwendungsfällen sind sie zu geplanten Ausführungen übergegangen.
Der Onboarding-Prozess ist mit Datalore ausgereifter und straffer geworden. Früher war unsere Dokumentation auf Git-Repos verteilt und wir hatten autodoc-Webseiten, aber dank Datalore können wir neue Mitwirkende jetzt mit einem „Einstiegs-Notebook“ ausstatten, das sie kopieren und für ihre ersten Schritte verwenden können. Da statische Berichte auch Code-Zellen enthalten können, können wir außerdem unkompliziert Dokumentationsberichte erstellen, aus denen Analyst*innen Codebeispiele kopieren und einfügen können.
„Datalore hat sich als sehr nützlich erwiesen, um die Reibungsverluste beim Onboarding zu verringern und unsere Arbeitsabläufe zu dokumentieren.“
Beim Einstieg in Datalore dachten wir, dass wir die Echtzeit-Kollaborationsfunktionen beim Onboarding neuer Mitwirkender häufig nutzen würden, aber seltsamerweise ist dies nicht der Fall. Wir nutzen die Echtzeit-Zusammenarbeit jedoch für Gruppenanrufe, also praktisch Mob-Programmierung, aber in den meisten Szenarien ist es eine bestimmte Person, die den Code entwickelt.
Wir haben binäre „Scratch“-Daten, die sich in Speichern wie S3 oder minIO befinden, und wir nutzen S3 auch als Data-Lake-Schicht oberhalb unserer Data Warehouses und Lakehouses. Wir haben auch zahlreiche klassische SQL-Datenbanken wie Postgres. Datenbankintegrationen, die ursprünglich nicht vorhanden waren, sind eine wirklich angenehme Ergänzung in Datalore. Im Laufe der Entwicklung dieser Funktion konnten viele unserer SQL-Analyst*innen Datalore immer besser nutzen, da sie Zugriff auf Funktionsmerkmale erhielten, die sie von DataGrip gewohnt waren.
Zu Beginn war Datalore noch nicht in AWS installiert, aber wir migrierten es zu AWS, um Zugriff auf einige bereits genutzte Dienste zu erhalten – zum Beispiel Athena. Seitdem konnten wir ziemlich einfach alle unsere Datenquellen und sogar weitere AWS-Speicher hinzufügen.
Zur Veröffentlichung unserer Arbeitsergebnisse nutzen wir vor allem die Berichtsfunktion. Dies gibt uns die Möglichkeit, unsere Arbeitsabläufe mit Markdown-Notizen zu versehen und Berichte zu veröffentlichen, in denen wir die Datenquellen und Transformationen erläutern, die zum Erreichen der Ergebnisse angewandt wurden.
Außerdem haben wir begonnen, unter Verwendung von Datalore Analysedatenbanken mit den Ergebnissen unserer Arbeit zu füllen. Traditionell haben wir diese Anwendungsfälle mit Airflow abgedeckt, aber seit der Einführung der Zeitplanung können wir stattdessen Datalore verwenden. Früher hatten wir einen DAG, der für einen Teil der Datenbankbefüllung zuständig war, aber wir haben ihn durch ein Datalore-Notebook ersetzt, das jede Stunde ausgeführt wird. Ursprünglich haben wir Datalore hauptsächlich als Lesetool für Datenquellen verwendet, aber seit der Einführung der Zeitplanung haben wir begonnen, einige Datenbanken ausschließlich mit Datalore zu befüllen. Dieser Workflow ist einfacher, als eine Analyse in Angriff zu nehmen und dann den Code für Airflow in einen DAG zu migrieren.
„Die Zeitplanung ist mein persönlicher Favorit unter den neuen Funktionen.“
Und schließlich gibt es Untersuchungsbeauftragte und Analyst*innen, die domänenspezifische Analysen durchführen. Ihre Arbeit im Rahmen von Untersuchungen wird in Form von analytischen „Runbooks“ für Kolleg*innen zur Verfügung gestellt, die als interaktive Berichte veröffentlicht werden. Wenn eine ähnliche Analyse benötigt wird, kann der Bericht wiederverwendet werden, indem einfach der Link geteilt wird.
Unser Forschungs-Grundteam ist in projektbezogene Gruppen gegliedert. In den Besprechungen dieser Gruppen werden geteilte Notebooks in Datalore geöffnet und gemeinsam bearbeitet. Wie ich bereits erwähnt habe, haben Data Engineers in letzter Zeit begonnen, mit Data Scientists zusammenzuarbeiten, wobei geplante Durchläufe zum Auffüllen von Daten genutzt werden.
Erstens arbeiten wir weiterhin daran, einen Teil unserer Data-Science-Infrastruktur zu konsolidieren. Dank Datalore brauchen wir Tools wie nbviewer (zur Präsentation von Notebooks) und Google Colab (zur gemeinsamen Notebook-Bearbeitung). Und seit der Einführung der Zeitplanungsfunktion haben wir begonnen, einige unserer Airflow-Anwendungsfälle in Datalore zu konsolidieren.
Zweitens: Als ich Datalore bei Chainalysis eingeführt habe, habe ich einfach alle, die Python für Data Science verwenden, mit den eher SQL-orientierten Analyst*innen zusammengebracht. In Zukunft werden wir unsere Installation vielleicht auch auf Business-Intelligence-Anwendungsfälle (z. B. Business-Dashboards) ausweiten.
Und zu guter Letzt haben wir begonnen, uns mit Bedienoberflächen für Data Science zu beschäftigen, und wir haben ein internes Tool mit Links zu den wichtigsten interaktiven Berichten und anderen Dashboards erstellt. Wir konnten dies in Datalore einbetten und so iFrames für die Navigation zwischen unseren verschiedenen Data-Science-Frontends erstellen.
Netanel Golani, Bedrohungsexperte bei Hunters
Es ist erst einen Monat her, dass das Data-Science-Team von Hunters Datalore eingeführt hat, und wir haben bereits Verbesserungen bei der Produktivität und Bedienfreundlichkeit in unserem täglichen Arbeitsablauf beobachtet – insbesondere bei der Arbeit mit einer Vielzahl von Kundendatenquellen.
Chad Rosenberg, Head of Technology, Center for New Data
Datalore bietet uns Möglichkeiten, mit unseren Daten zu arbeiten, die uns in Airflow einfach nicht zur Verfügung stehen – wir können zum Beispiel die Pipeline-Ergebnisse debuggen, die Webhooks testen und die Daten mit automatischen Plotting-Funktionen unkompliziert visualisieren. Die Verwendung des nativen Snowflake-Konnektors in Datalore sowie der programmatischen Konnektoren in Pandas hat bei der Arbeit an geteilten Notebooks definitiv Zeit gespart.
Moreno Raimondo Vendra, Senior Engineer für maschinelles Lernen, TrueLayer
Datalore ermöglichte einen ergonomischen Zugriff auf unsere Daten und erfüllte gleichzeitig die Sicherheitsanforderungen, was für uns ein entscheidender Vorteil war. Dadurch ist die Zusammenarbeit sowohl innerhalb unseres ML-Teams als auch mit unseren Stakeholdern viel einfacher geworden.