Industrie: Forschung
Verwendete JetBrains-Produkte: Datalore
Organisationsgröße: 15
Land: Vereinigte Staaten
Hallo, ich bin Chad Rosenberg, technischer Leiter bei Center for New Data (newdata.org). Ich leite die Infrastrukturaktivitäten und verwalte das landesweite Freiwilligenkorps von New Data, das Mitwirkende in den Bereichen Data Science, Engineering und Statistik umfasst.
Unser Flaggschiffprogramm verwendet Big Data zur Messung des Wahlzugangs in den Vereinigten Staaten. Dabei werden die Wartezeiten für Millionen Wähler an Zehntausenden Wahllokalen im ganzen Land analysiert und mit den Regionen und dem individuellen sozioökonomischen Status korreliert. Die Ergebnisse zeigen, dass der Wahlzugang je nach Ort unterschiedlich ist. Ein anderes Programm hilft uns, anhand von Mobilitätsdaten relevante Communities zu finden, anstatt nur konzeptionelle Ansätze zu verfolgen. Indem wir herausfinden, wie wir diese oft marginalisierten Communities besser in Wahlbezirke organisieren können, tragen wir zu einer Reduzierung der Polarisierung und zum Aufbau einer robusteren Demokratie bei.
Die vorherige Notebook-Lösung war wirklich schwer zu pflegen. Es gab einige Probleme mit Kubernetes-Abhängigkeiten, die schwer zu lösen waren. Die Migration von einer Version zur nächsten war sehr schwierig. Als ehrenamtliche Organisation müssen wir ein Auge auf unseren DevOps-Aufwand haben, und wir waren begeistert, dass Datalore eine schlüsselfertige Lösung war, die wir unkompliziert in unserem Kubernetes-Cluster auf AWS einrichten konnten. Wir sind darauf angewiesen, dass die Dinge einfach funktionieren, und die Verfügbarkeit von Support erleichtert uns die Arbeit ebenfalls.
„Mit Datalore kann unser Team Prototypen zügig erstellen und die Ergebnisse mit allen Teammitgliedern teilen. Das Tool hat unsere Zusammenarbeit in der gesamten Organisation grundlegend verändert.“
— Chad Rosenberg, Head of Technology, Center for New Data
Wir haben etwa 15 Benutzerplätze in Datalore, und der Großteil des Teams arbeitet an der Datenqualität. Das Datenqualitätsteam verwendet Datalore zur Überprüfung der Apache-Airflow-Schedule-Ergebnisse, für explorative Analysen und zur Erstellung von datenbasierten Berichten.
Wir verwenden derzeit Snowflake als Hauptdatenbank. Wir nehmen etwa 300 GB an anonymisierten Handy-Standortdaten von unseren Datenanbietern entgegen, berechnen die wichtigsten Kennzahlen mit Apache Airflow und speichern die resultierenden Daten in Snowflake.
Datalore bietet uns Möglichkeiten, mit unseren Daten zu arbeiten, die uns in Airflow einfach nicht zur Verfügung stehen – wir können zum Beispiel die Pipeline-Ergebnisse debuggen, die Webhooks testen und die Daten mit automatischen Plotting-Funktionen unkompliziert visualisieren. Die Verwendung des nativen Snowflake-Konnektors in Datalore sowie der programmatischen Konnektoren in Pandas hat bei der Arbeit an geteilten Notebooks definitiv Zeit gespart.
Wir lieben außerdem die Funktion zum Veröffentlichen von Berichten. Dadurch können wir die Ergebnisse unserer Arbeit einem breiteren Publikum präsentieren. Wir können einfach einen Bericht zusammenstellen, ihn veröffentlichen und sagen: „Hier ist die URL“, ohne den Betrachtenden die Möglichkeit zu geben, Daten herunterzuladen.
Bei der Zusammenstellung der Abfrage ist es sehr einfach, die nativen SQL-Zellen und die Snowflake-Verbindung zu verwenden. Wenn wir eine SQL-Schleife ausführen müssen, verwenden wir Pandas und fügen die SQL-Zeichenfolgen dort ein.
Jemand importiert die Daten mithilfe von SQL-Zellen und erstellt den resultierenden Dataframe. Andere Teammitglieder beginnen dann mit der Untersuchung der Daten im selben Notebook und erstellen Datenqualitätsberichte. Danach vergleichen wir die Ergebnisse mit früheren Läufen.
Mit Datalore kann unser Team Prototypen zügig erstellen und die Ergebnisse mit allen Teammitgliedern teilen. Das Tool hat unsere Zusammenarbeit in der gesamten Organisation grundlegend verändert.
Wir sind noch nicht dazu gekommen, die zentralisierte Authentifizierung in Datalore zu konfigurieren, aber wir nehmen es uns für die kommenden Monate vor. Wir möchten auch eine horizontale Skalierung in unserem Kubernetes-Cluster implementieren, um etwas Rechenzeit zu sparen.
Inzwischen bereiten wir uns aktiv auf die Midterm-Wahlen im Herbst vor, und Datalore wird eine wesentliche Rolle bei unseren Vorbereitungen spielen.
Netanel Golani, Bedrohungsexperte bei Hunters
Es ist erst einen Monat her, dass das Data-Science-Team von Hunters Datalore eingeführt hat, und wir haben bereits Verbesserungen bei der Produktivität und Bedienfreundlichkeit in unserem täglichen Arbeitsablauf beobachtet – insbesondere bei der Arbeit mit einer Vielzahl von Kundendatenquellen.
Surya Rastogi, Senior Staff Data Scientist, Chainalysis
Eine unserer größten Herausforderungen besteht darin, dass der Blockchain-Bereich sehr schnell expandiert und es kontinuierlich neue Daten gibt, die erfasst und analysiert werden müssen. Als Unternehmen verwenden wir zahlreiche Funktionen zur Datenerfassung und -verarbeitung, und wir gehen davon aus, dass ihre Zahl weiter zunehmen wird.
Moreno Raimondo Vendra, Senior Engineer für maschinelles Lernen, TrueLayer
Datalore ermöglichte einen ergonomischen Zugriff auf unsere Daten und erfüllte gleichzeitig die Sicherheitsanforderungen, was für uns ein entscheidender Vorteil war. Dadurch ist die Zusammenarbeit sowohl innerhalb unseres ML-Teams als auch mit unseren Stakeholdern viel einfacher geworden.