Domaine : Recherche
Produits JetBrains utilisés : Datalore
Taille de l'organisation : 15
Pays : États-Unis
Bonjour, je suis Chad Rosenberg, directeur des technologies du Center for New Data (newdata.org). Je dirige les opérations d'infrastructure et gère la communauté nationale de volontaires de New Data, qui comprend des contributeurs dans les domaines de la science des données, de l'ingénierie et des statistiques.
Notre programme phare, qui utilise le big data pour mesurer l'accès au vote aux États-Unis, a pour objectif d'analyser les temps d'attente de millions d'électeurs à des dizaines de milliers de bureaux de vote au niveau national, puis de les corréler à des régions et des statuts socio-économiques, pour démontrer que l'accès au vote peut varier en fonction du lieu. Un autre programme nous a permis d'identifier des communautés d'intérêt incluant les données de mobilité contrairement aux approches purement contextuelles. Comprendre comment mieux organiser ces communautés souvent marginalisées dans les circonscriptions contribue à réduire la polarisation et développer une démocratie plus saine.
La solution précédente de notebook était vraiment difficile à gérer. Elle présentait des problèmes au niveau des dépendances Kubernetes difficiles à résoudre. La migration d'une version à l'autre était très complexe. Le temps consacré au DevOps est très important pour nous en tant qu'organisation caritative, et nous avons adoré le fait que Datalore soit une solution clés en main, facilement configurable dans notre cluster Kubernetes sur AWS. Il nous faut un service opérationnel, et l'assistance incluse facilite également les choses.
« Datalore permet à notre équipe de réaliser rapidement des prototypes et d'en partager les résultats avec tous les membres. Cet outil a changé la donne pour la collaboration dans notre organisation. »
— Chad Rosenberg, directeur des technologies, Center for New Data
Nous utilisons environ 15 postes dans Datalore, et la majeure partie de l'équipe travaille sur la qualité des données. L'équipe de qualité des données utilise Datalore pour résoudre les problèmes des résultats de planification d'Apache Airflow, réaliser des analyses exploratoires et créer des rapports à partir des données.
Nous utilisons actuellement Snowflake comme base de données principale. Nous ingérons quelque 300 Go de données de localisation de téléphone mobile anonymisées provenant de nos fournisseurs de données, calculons les métriques essentielles avec Apache Airflow, puis plaçons les jeux de données résultants dans Snowflake.
Datalore nous permet de travailler sur nos données d'une façon qui serait impossible avec Airflow, comme le débogage des résultats du pipeline, les tests de webhooks et la visualisation rapide des données grâce aux fonctionnalités de traçage automatique. L'utilisation du connecteur Snowflake natif dans Datalore, ainsi que les connecteurs programmatiques dans Pandas, nous ont vraiment permis de gagner du temps lors du travail sur les notebooks partagés.
Nous avons également adoré la fonctionnalité de publication de rapports. Cela nous permet de présenter les résultats de notre travail à un public plus large. Nous pouvons simplement compiler un rapport, le publier et dire : « Voici l'URL », sans donner aux internautes la possibilité de télécharger les données.
Il est très facile d'utiliser les cellules SQL natives et la connexion Snowflake lorsque vous commencez à assembler la requête. Si nous devons exécuter une boucle sur SQL, nous utilisons Pandas et y insérons les chaînes de caractères SQL.
Quelqu'un importe les données en utilisant des cellules SQL et prépare les DataFrame qui en résultent. D'autres membres de l'équipe peuvent commencer à examiner les données dans le même notebook, produire des rapports de qualité des données, puis nous comparons les résultats aux exécutions précédentes.
Datalore permet à notre équipe de réaliser rapidement des prototypes et d'en partager les résultats avec tous les membres. Cet outil a changé la donne pour la collaboration dans notre organisation.
Nous n'avons pas encore eu le temps de configurer l'authentification centralisée dans Datalore, mais nous allons y travailler au cours des mois à venir. Nous devons également nous pencher sur l'évolutivité horizontale de notre cluster Kubernetes (K8s) pour réduire le temps de calcul.
Entre-temps, nous nous préparons activement pour les élections de mi-mandat cet automne, et Datalore fait partie intégrante de nos préparations.
Netanel Golani, un expert en Threat Hunting chez Hunters
Cela fait maintenant un mois que l'équipe de science des données de Hunters utilise Datalore, et nous avons déjà constaté des gains de productivité et d'utilisation dans nos workflows quotidiens, notamment lors de la manipulation de plusieurs sources de données de clients.
Surya Rastogi, data scientist senior, Chainalysis
L’un de nos plus grands défis est que l’espace de la blockchain se développe rapidement ; il y a toujours de nouvelles données à acquérir et à analyser. En tant qu'entreprise, nous disposons de nombreuses fonctions d'acquisition et de traitement de données et nous espérons les voir continuer à croître.
Moreno Raimondo Vendra, ingénieur responsable du machine learning chez TrueLayer
Datalore a offert à notre équipe un accès ergonomique à nos données dans le respect des exigences de sécurité. Cela a complètement changé la donne pour nous. Nous pouvons collaborer beaucoup plus facilement, tant au sein de notre équipe machine learning qu’avec nos autres interlocuteurs et interlocutrices.