Industrie: Forschung

Verwendete JetBrains-Produkte: Datalore

Organisationsgröße: 15

Land: Vereinigte Staaten

Center for New Data

Center for New Data arbeitet mit Bürgerrechtsorganisationen, Technologieunternehmen und Forschenden zusammen, um der Demokratiebewegung auf der Basis von Big Data neue Methoden bereitzustellen.

Wie Center for New Data mit Datalore und Airflow täglich 300 GB Daten verarbeitet

Über Center for New Data

Könnten Sie ein paar Worte zu sich selbst sagen?

Hallo, ich bin Chad Rosenberg, technischer Leiter bei Center for New Data (newdata.org). Ich leite die Infrastrukturaktivitäten und verwalte das landesweite Freiwilligenkorps von New Data, das Mitwirkende in den Bereichen Data Science, Engineering und Statistik umfasst.

An welchen Arten von Projekten ist New Data beteiligt?

Unser Flaggschiffprogramm verwendet Big Data zur Messung des Wahlzugangs in den Vereinigten Staaten. Dabei werden die Wartezeiten für Millionen Wähler an Zehntausenden Wahllokalen im ganzen Land analysiert und mit den Regionen und dem individuellen sozioökonomischen Status korreliert. Die Ergebnisse zeigen, dass der Wahlzugang je nach Ort unterschiedlich ist. Ein anderes Programm hilft uns, anhand von Mobilitätsdaten relevante Communities zu finden, anstatt nur konzeptionelle Ansätze zu verfolgen. Indem wir herausfinden, wie wir diese oft marginalisierten Communities besser in Wahlbezirke organisieren können, tragen wir zu einer Reduzierung der Polarisierung und zum Aufbau einer robusteren Demokratie bei.


Zu lösende Probleme

Warum haben Sie sich nach einer Lösung wie Datalore umgesehen? Welchen Herausforderungen standen Sie gegenüber?

Die vorherige Notebook-Lösung war wirklich schwer zu pflegen. Es gab einige Probleme mit Kubernetes-Abhängigkeiten, die schwer zu lösen waren. Die Migration von einer Version zur nächsten war sehr schwierig. Als ehrenamtliche Organisation müssen wir ein Auge auf unseren DevOps-Aufwand haben, und wir waren begeistert, dass Datalore eine schlüsselfertige Lösung war, die wir unkompliziert in unserem Kubernetes-Cluster auf AWS einrichten konnten. Wir sind darauf angewiesen, dass die Dinge einfach funktionieren, und die Verfügbarkeit von Support erleichtert uns die Arbeit ebenfalls.


„Mit Datalore kann unser Team Prototypen zügig erstellen und die Ergebnisse mit allen Teammitgliedern teilen. Das Tool hat unsere Zusammenarbeit in der gesamten Organisation grundlegend verändert.“

— Chad Rosenberg, Head of Technology, Center for New Data


Die Datalore-Erfahrung

Wer verwendet Datalore in Ihrem Team?

Wir haben etwa 15 Benutzerplätze in Datalore, und der Großteil des Teams arbeitet an der Datenqualität. Das Datenqualitätsteam verwendet Datalore zur Überprüfung der Apache-Airflow-Schedule-Ergebnisse, für explorative Analysen und zur Erstellung von datenbasierten Berichten.

Mit welchen Arten von Daten arbeiten Sie?

Wir verwenden derzeit Snowflake als Hauptdatenbank. Wir nehmen etwa 300 GB an anonymisierten Handy-Standortdaten von unseren Datenanbietern entgegen, berechnen die wichtigsten Kennzahlen mit Apache Airflow und speichern die resultierenden Daten in Snowflake.

Was sind die wichtigsten Vorteile, die sich aus der Verwendung von Datalore ergeben?

Datalore bietet uns Möglichkeiten, mit unseren Daten zu arbeiten, die uns in Airflow einfach nicht zur Verfügung stehen – wir können zum Beispiel die Pipeline-Ergebnisse debuggen, die Webhooks testen und die Daten mit automatischen Plotting-Funktionen unkompliziert visualisieren. Die Verwendung des nativen Snowflake-Konnektors in Datalore sowie der programmatischen Konnektoren in Pandas hat bei der Arbeit an geteilten Notebooks definitiv Zeit gespart.

Wir lieben außerdem die Funktion zum Veröffentlichen von Berichten. Dadurch können wir die Ergebnisse unserer Arbeit einem breiteren Publikum präsentieren. Wir können einfach einen Bericht zusammenstellen, ihn veröffentlichen und sagen: „Hier ist die URL“, ohne den Betrachtenden die Möglichkeit zu geben, Daten herunterzuladen.

Wann verwenden Sie die native Snowflake-Datenbankverbindung und SQL-Zellen? Und wann greifen Sie über Python auf Ihre Datenbank zu?

Bei der Zusammenstellung der Abfrage ist es sehr einfach, die nativen SQL-Zellen und die Snowflake-Verbindung zu verwenden. Wenn wir eine SQL-Schleife ausführen müssen, verwenden wir Pandas und fügen die SQL-Zeichenfolgen dort ein.

Können Sie uns die Zusammenarbeit in Ihrem Team an einem Beispiel veranschaulichen?

Jemand importiert die Daten mithilfe von SQL-Zellen und erstellt den resultierenden Dataframe. Andere Teammitglieder beginnen dann mit der Untersuchung der Daten im selben Notebook und erstellen Datenqualitätsberichte. Danach vergleichen wir die Ergebnisse mit früheren Läufen.

Haben Sie Verbesserungen in den Arbeitsabläufen Ihres Datenteams festgestellt?

Mit Datalore kann unser Team Prototypen zügig erstellen und die Ergebnisse mit allen Teammitgliedern teilen. Das Tool hat unsere Zusammenarbeit in der gesamten Organisation grundlegend verändert.

Wie geht es weiter?

Wir sind noch nicht dazu gekommen, die zentralisierte Authentifizierung in Datalore zu konfigurieren, aber wir nehmen es uns für die kommenden Monate vor. Wir möchten auch eine horizontale Skalierung in unserem Kubernetes-Cluster implementieren, um etwas Rechenzeit zu sparen.

Inzwischen bereiten wir uns aktiv auf die Midterm-Wahlen im Herbst vor, und Datalore wird eine wesentliche Rolle bei unseren Vorbereitungen spielen.

Ähnliche Kundenstudien

Hunters

Netanel Golani, Bedrohungsexperte bei Hunters

Es ist erst einen Monat her, dass das Data-Science-Team von Hunters Datalore eingeführt hat, und wir haben bereits Verbesserungen bei der Produktivität und Bedienfreundlichkeit in unserem täglichen Arbeitsablauf beobachtet – insbesondere bei der Arbeit mit einer Vielzahl von Kundendatenquellen.

Chainalysis

Surya Rastogi, Senior Staff Data Scientist, Chainalysis

Eine unserer größten Herausforderungen besteht darin, dass der Blockchain-Bereich sehr schnell expandiert und es kontinuierlich neue Daten gibt, die erfasst und analysiert werden müssen. Als Unternehmen verwenden wir zahlreiche Funktionen zur Datenerfassung und -verarbeitung, und wir gehen davon aus, dass ihre Zahl weiter zunehmen wird.

TrueLayer

Moreno Raimondo Vendra, Senior Engineer für maschinelles Lernen, TrueLayer

Datalore ermöglichte einen ergonomischen Zugriff auf unsere Daten und erfüllte gleichzeitig die Sicherheitsanforderungen, was für uns ein entscheidender Vorteil war. Dadurch ist die Zusammenarbeit sowohl innerhalb unseres ML-Teams als auch mit unseren Stakeholdern viel einfacher geworden.

Weitere Kundenstudien