Domaine : Blockchain

Produits JetBrains utilisés : Datalore

Taille de l'organisation : 500-1000

Pays : États-Unis

Chainalysis

Chainalysis fournit des données, des logiciels, des services et des études aux agences gouvernementales, aux bourses, aux institutions financières et aux compagnies d'assurance et de cybersécurité dans plus de 70 pays. Notre plateforme de données alimente des outils d’enquête, de conformité et de gestion des risques. Ils ont été utilisés pour résoudre certains des dossiers de cybercriminalité les plus médiatisés au monde et étendre en toute sécurité l’accès des consommateurs à la cryptomonnaie.

Comment Chainalysis utilise Datalore pour l'analytique de blockchain

À propos de Chainalysis

Pourriez-vous vous présenter ?

Bonjour, je suis Surya Rastogi, data scientist senior chez Chainalysis. Je passe beaucoup de temps à analyser diverses données de blockchain et à fournir des outils analytiques à de nombreuses équipes au sein de l'entreprise. Actuellement, je dirige le développement de nos outils de recherche.

Dans quel type de projets Chainalysis est-elle impliquée ?

Chainalysis fournit des données, des logiciels, des services et des recherches aux institutions gouvernementales, aux bourses, aux institutions financières et aux sociétés d'assurance et de cybersécurité dans plus de 70 pays. Notre plateforme de données alimente des outils d'enquête, de conformité et de gestion des risques qui ont été utilisés pour élucider certaines des affaires de cybercriminalité les plus médiatisées au monde et pour élargir en toute sécurité l'accès des consommateurs aux cryptomonnaies.


Problèmes à résoudre

Qu'est-ce qui vous a poussé à envisager Datalore ou des des solutions alternatives ? Quels défis avez-vous rencontrés ?

L'un de nos plus grands défis est que l'espace des blockchains est en pleine expansion et abonde en nouvelles données à acquérir et à analyser. En tant qu'entreprise, nous avons beaucoup de fonctions d'acquisition et de traitement de données, et nous prévoyons de continuer à augmenter ce nombre.


« Datalore nous fournit une vue d'ensemble sur toutes ces données, une interface qui permet aux data scientists de fouiller dans chacune des sources de données et de les combiner pour en tirer des enseignements. »

— Surya Rastogi, data scientist senior, Chainalysis


L'expérience Datalore

Qui utilise Datalore dans votre équipe ?

Au total, 35 personnes de chez Chainalysis ont accès à Datalore. Le département de recherche, qui se concentre sur la R&D et la deep tech, gère l'installation de Datalore et donne accès à d'autres fonctions de science des données. Nous avons des scientifiques des données produit qui analysent les données à envoyer au produit et qui auditent ces données pour rechercher les éventuelles valeurs aberrantes et intrications. Les ingénieurs en science des données s'intéressent plus que jamais à Datalore depuis l'introduction récente de la fonctionnalité de Planification. Auparavant, ces ingénieurs écrivaient des DAG Airflow, mais nous sommes en train de passer à l'utilisation d'exécutions planifiées pour certains de nos cas d'utilisation.

Votre équipe s'est beaucoup agrandie l'année dernière. Le processus d'intégration des nouveaux membres a-t-il changé après l'adoption de Datalore ?

Le processus d'intégration des nouveaux membres a mûri et s'est simplifié avec Datalore. Auparavant, la documentation était répartie entre plusieurs dépôts Git ainsi que des pages web autodoc. Avec Datalore, nous pouvons maintenant donner aux nouveaux arrivants un notebook « Premiers pas », à copier et à utiliser pour commencer. De plus, comme les rapports statiques peuvent inclure des cellules de code, nous pouvons facilement créer des rapports de documentation à partir desquels les analystes peuvent copier et coller des extraits de code.


« Datalore a vraiment permis de fluidifier l'intégration des nouveaux membres et la documentation de nos workflows. »


Pour l'initiation de nouveaux employés à Datalore, nous pensions à l'origine utiliser davantage les fonctionnalités de collaboration en temps réel, mais curieusement, ce n'est pas le cas. Nous utilisons la collaboration en temps réel pour les appels à plusieurs personnes (la programmation collective, en fait), mais dans la plupart des scénarios, une seule personne est désignée pour piloter le code.

Quel type de données manipulez-vous ?

Nous avons des données binaires « ex nihilo » dans des entrepôts tels que S3 ou minIO, et nous utilisons également S3 comme couche de lac de données en amont de nos entrepôts de données et de nos lakehouses. Nous disposons également de nombreuses bases de données SQL classiques comme Postgres. Les intégrations de bases de données, qui n'étaient pas initialement présentes en tant que fonctionnalité, ont été un ajout très appréciable dans Datalore. Au fur et à mesure du développement de la fonctionnalité, un grand nombre de nos analystes SQL ont pu recourir davantage à Datalore, car ils avaient accès aux fonctionnalités de DataGrip nécessaires.

Lorsque nous avons commencé, Datalore n'était pas installé dans AWS, mais nous l'avons migré vers AWS afin de bénéficier de certains des services que nous utilisions déjà, comme Athena. Depuis, nous avons facilement pu ajouter toutes nos sources de données et même d'autres entrepôts AWS.

Comment partagez-vous les résultats de votre travail ?

Dans le cadre du partage des résultats de notre travail, nous apprécions principalement la fonctionnalité Reports. Elle nous permet d'annoter nos workflow avec des balises markdown, et nous pouvons ainsi publier des rapports décrivant les sources de données et les transformations appliquées pour obtenir certains résultats.

De plus, nous avons commencé à utiliser Datalore pour alimenter des bases de données analytiques avec les résultats de notre travail. Nous utilisions auparavant Airflow à cette fin, mais avec l'ajout de la fonctionnalité Scheduling, nous avons pu utiliser Datalore à la place. Nous avions un graphe DAG qui était chargé de l'alimentation de certaines bases de données, mais nous l'avons remplacé par un notebook Datalore qui s'exécute toutes les heures. Au départ, nous utilisions principalement Datalore comme un outil de lecture seule pour les sources de données, mais depuis l'ajout de la planification, nous avons commencé à alimenter certaines bases de données uniquement par Datalore. Ce workflow est plus simple que de commencer par une enquête puis de migrer le code vers un DAG pour Airflow.


« La planification est ma nouvelle fonctionnalité préférée. »


Enfin, il y a les enquêteurs et les analystes qui effectuent des analyses spécifiques à un domaine. Leur travail est partagé sous forme de « runbooks » analytiques pour les enquêtes en publiant un rapport interactif pour leurs homologues. Si une analyse similaire est nécessaire, il est possible de réutiliser le rapport simplement en en partageant le lien.

Pouvez-vous nous donner un exemple de collaboration au sein de votre équipe ?

Notre principale équipe de recherche rassemble des groupes autour de projets. Ces groupes tiennent des réunions au cours desquelles chacun ouvrent des notebooks partagés dans Datalore pour les parcourir ensemble. Comme je l'ai déjà mentionné, les ingénieurs de données ont récemment commencé à collaborer avec les data scientists, grâce à des exécutions planifiées qui alimentent les données.

Qu'est-il prévu pour la suite ?

Premièrement, nous continuons à consolider une partie de notre infrastructure de science des données. Datalore nous permet de supprimer le besoin d'outils tels que nbviewer (pour présenter les notebooks) et Google Colab (pour collaborer sur les notebooks). Et maintenant, avec la fonctionnalité de planification, nous avons commencé à fusionner certains de nos cas d'utilisation Airflow dans Datalore.

Deuxièmement, lorsque j'ai initialement présenté Datalore à Chainalysis, j'ai simplement réuni toutes les personnes qui utilisent Python pour la science des données, puis les analystes plus orientés SQL. À l'avenir, nous pourrions également étendre notre installation pour traiter les cas d'utilisation de renseignement commercial (par exemple, les tableaux de bord commerciaux).

Enfin, nous avons commencé à nous concentrer sur les interfaces utilisateur pour la science des données et nous avons construit un outil interne avec des liens vers les rapports interactifs les plus importants et d'autres tableaux de bord. Nous avons pu l'intégrer à Datalore, ce qui nous a permis de créer des iframes de navigation entre nos différentes interfaces de science des données.

Témoignages de clients similaires

Hunters

Netanel Golani, un expert en Threat Hunting chez Hunters

Cela fait maintenant un mois que l'équipe de science des données de Hunters utilise Datalore, et nous avons déjà constaté des gains de productivité et d'utilisation dans nos workflows quotidiens, notamment lors de la manipulation de plusieurs sources de données de clients.

The Center for New Data

Chad Rosenberg, directeur des technologies, Center for New Data

Datalore nous donne simplement des moyens de travailler sur nos données que nous n’aurons pas dans Airflow, comme le débogage des résultats du pipeline, l’essai des webhooks et la visualisation rapide des données grâce aux fonctionnalités de traçage automatique. La possibilité d’utiliser le connecteur Snowflake natif dans Datalore, ainsi que les connecteurs programmatiques dans pandas, a certainement permis de gagner du temps lors du travail sur des notebooks partagés.

TrueLayer

Moreno Raimondo Vendra, ingénieur responsable du machine learning chez TrueLayer

Datalore a offert à notre équipe un accès ergonomique à nos données dans le respect des exigences de sécurité. Cela a complètement changé la donne pour nous. Nous pouvons collaborer beaucoup plus facilement, tant au sein de notre équipe machine learning qu’avec nos autres interlocuteurs et interlocutrices.

Plus de témoignages