Domaine : Recherche

Produits JetBrains utilisés : Datalore

Taille de l'organisation : 15

Pays : États-Unis

The Center for New Data

L'ONG Center for New Data travaille avec des collectifs de citoyens, des entreprises dans le domaine technologique et des universitaires pour mettre les méthodologies innovantes au service du mouvement démocratique, sur la base du big data.

Comment l'ONG Center for New Data traite 300 Go de données quotidiennement grâce à Datalore et Airflow

À propos du Center for New Data

Pourriez-vous vous présenter ?

Bonjour, je suis Chad Rosenberg, directeur des technologies du Center for New Data (newdata.org). Je dirige les opérations d'infrastructure et gère la communauté nationale de volontaires de New Data, qui comprend des contributeurs dans les domaines de la science des données, de l'ingénierie et des statistiques.

Quels types de projets sont traités par New Data ?

Notre programme phare, qui utilise le big data pour mesurer l'accès au vote aux États-Unis, a pour objectif d'analyser les temps d'attente de millions d'électeurs à des dizaines de milliers de bureaux de vote au niveau national, puis de les corréler à des régions et des statuts socio-économiques, pour démontrer que l'accès au vote peut varier en fonction du lieu. Un autre programme nous a permis d'identifier des communautés d'intérêt incluant les données de mobilité contrairement aux approches purement contextuelles. Comprendre comment mieux organiser ces communautés souvent marginalisées dans les circonscriptions contribue à réduire la polarisation et développer une démocratie plus saine.


Problèmes à résoudre

Qu'est-ce qui vous a poussé à envisager Datalore ou des des solutions alternatives ? Quels défis avez-vous rencontrés ?

La solution précédente de notebook était vraiment difficile à gérer. Elle présentait des problèmes au niveau des dépendances Kubernetes difficiles à résoudre. La migration d'une version à l'autre était très complexe. Le temps consacré au DevOps est très important pour nous en tant qu'organisation caritative, et nous avons adoré le fait que Datalore soit une solution clés en main, facilement configurable dans notre cluster Kubernetes sur AWS. Il nous faut un service opérationnel, et l'assistance incluse facilite également les choses.


« Datalore permet à notre équipe de réaliser rapidement des prototypes et d'en partager les résultats avec tous les membres. Cet outil a changé la donne pour la collaboration dans notre organisation. »

— Chad Rosenberg, directeur des technologies, Center for New Data


L'expérience Datalore

Qui utilise Datalore dans votre équipe ?

Nous utilisons environ 15 postes dans Datalore, et la majeure partie de l'équipe travaille sur la qualité des données. L'équipe de qualité des données utilise Datalore pour résoudre les problèmes des résultats de planification d'Apache Airflow, réaliser des analyses exploratoires et créer des rapports à partir des données.

Quel type de données manipulez-vous ?

Nous utilisons actuellement Snowflake comme base de données principale. Nous ingérons quelque 300 Go de données de localisation de téléphone mobile anonymisées provenant de nos fournisseurs de données, calculons les métriques essentielles avec Apache Airflow, puis plaçons les jeux de données résultants dans Snowflake.

Quels avantages retirez-vous principalement de l'utilisation de Datalore ?

Datalore nous permet de travailler sur nos données d'une façon qui serait impossible avec Airflow, comme le débogage des résultats du pipeline, les tests de webhooks et la visualisation rapide des données grâce aux fonctionnalités de traçage automatique. L'utilisation du connecteur Snowflake natif dans Datalore, ainsi que les connecteurs programmatiques dans Pandas, nous ont vraiment permis de gagner du temps lors du travail sur les notebooks partagés.

Nous avons également adoré la fonctionnalité de publication de rapports. Cela nous permet de présenter les résultats de notre travail à un public plus large. Nous pouvons simplement compiler un rapport, le publier et dire : « Voici l'URL », sans donner aux internautes la possibilité de télécharger les données.

Quand utilisez-vous la connexion de base de données Snowflake native et les cellules SQL ? Quand accédez-vous à votre base de données via Python ?

Il est très facile d'utiliser les cellules SQL natives et la connexion Snowflake lorsque vous commencez à assembler la requête. Si nous devons exécuter une boucle sur SQL, nous utilisons Pandas et y insérons les chaînes de caractères SQL.

Pouvez-vous nous donner un exemple de collaboration au sein de votre équipe ?

Quelqu'un importe les données en utilisant des cellules SQL et prépare les DataFrame qui en résultent. D'autres membres de l'équipe peuvent commencer à examiner les données dans le même notebook, produire des rapports de qualité des données, puis nous comparons les résultats aux exécutions précédentes.

Avez-vous remarqué des améliorations dans le workflow de votre équipe spécialisée dans les données ?

Datalore permet à notre équipe de réaliser rapidement des prototypes et d'en partager les résultats avec tous les membres. Cet outil a changé la donne pour la collaboration dans notre organisation.

Qu'est-il prévu pour la suite ?

Nous n'avons pas encore eu le temps de configurer l'authentification centralisée dans Datalore, mais nous allons y travailler au cours des mois à venir. Nous devons également nous pencher sur l'évolutivité horizontale de notre cluster Kubernetes (K8s) pour réduire le temps de calcul.

Entre-temps, nous nous préparons activement pour les élections de mi-mandat cet automne, et Datalore fait partie intégrante de nos préparations.

Témoignages de clients similaires

Hunters

Netanel Golani, un expert en Threat Hunting chez Hunters

Cela fait maintenant un mois que l'équipe de science des données de Hunters utilise Datalore, et nous avons déjà constaté des gains de productivité et d'utilisation dans nos workflows quotidiens, notamment lors de la manipulation de plusieurs sources de données de clients.

Chainalysis

Surya Rastogi, data scientist senior, Chainalysis

L’un de nos plus grands défis est que l’espace de la blockchain se développe rapidement ; il y a toujours de nouvelles données à acquérir et à analyser. En tant qu'entreprise, nous disposons de nombreuses fonctions d'acquisition et de traitement de données et nous espérons les voir continuer à croître.

TrueLayer

Moreno Raimondo Vendra, ingénieur responsable du machine learning chez TrueLayer

Datalore a offert à notre équipe un accès ergonomique à nos données dans le respect des exigences de sécurité. Cela a complètement changé la donne pour nous. Nous pouvons collaborer beaucoup plus facilement, tant au sein de notre équipe machine learning qu’avec nos autres interlocuteurs et interlocutrices.

Plus de témoignages