Domaine : FinTech
Produits JetBrains utilisés : Datalore
Taille de l'organisation : 250-500
Pays : Royaume-Uni
TrueLayer est une plateforme bancaire internationale ouverte, qui permet à tout un chacun de créer facilement de meilleures expériences financières. Les entreprises de toutes tailles, des startups aux grands groupes, utilisent TrueLayer pour gérer leurs paiements, accéder à des informations financières et intégrer des clients au Royaume-Uni et en Europe. Fondée en 2016, TrueLayer jouit de la confiance de millions de consommateurs et d'entreprises à travers le monde. Leur vision est de créer un système financier qui fonctionne pour tout le monde.
Je suis Moreno Raimondo Vendra, ingénieur responsable du machine learning chez TrueLayer. Notre équipe ML apporte son soutien à d'autres équipes de notre organisation qui ont des besoins intensifs en données. Nous les aidons à gérer de gros volumes de données, à produire des analyses de données et à créer des modèles de machine learning à partir de ces données. Nous contribuons principalement aux cas d'utilisation essentiels du produit TrueLayer, mais parfois notre travail englobe également des projets de recherche.
TrueLayer est une société de FinTech et un fournisseur de services bancaires ouverts, nous travaillons donc principalement avec des données financières. Nous permettons à nos clients d'accéder à des données bancaires ouvertes, et garantissons la conformité au RGPD. L'un des projets auxquels participe mon équipe consiste à enrichir les transactions des utilisateurs en leur apportant plus d'informations sur les commerçants.
Travailler avec des données financières n'est pas anodin, car on ne peut pas simplement accéder à un lac de données ou à une base de données de production, télécharger les données et travailler dessus. Il faut garantir un accès sécurisé aux données, et produire des informations faciles à partager.
Nous avions auparavant une machine AWS EC2 autonome, à laquelle il était difficile de se connecter en raison d'une multitude de VPN et d'informations d'identification personnelle temporaires qui arrivaient souvent à expiration. Nous ne pouvions pas faire évoluer facilement la taille de l'instance pour travailler avec un plus grand volume de données. Et bien sûr, l'intégration de nouveaux membres dans l'équipe était laborieuse.
« Datalore a offert à notre équipe un accès ergonomique à nos données dans le respect des exigences de sécurité. Cela a complètement changé la donne pour nous. Nous pouvons collaborer beaucoup plus facilement tant au sein de notre équipe machine learning qu'avec nos autres interlocuteurs. »
— Moreno Raimondo Vendra, ingénieur responsable du machine learning chez TrueLayer
Nous utilisons intensivement Datalore dans notre équipe de machine learning de trois personnes, et nous avons également deux autres interlocuteurs dans l'entreprise.
Les données avec lesquelles nous travaillons sont généralement produites dans des bases de données opérationnelles, mais nous stockons ensuite une partie d'entre elles dans notre lac de données sur AWS S3. Le principal type de données avec lequel nous travaillons est constitué de métadonnées dépersonnalisées sur les transactions bancaires ouvertes. Nous y accédons généralement via le client Python pour S3.
Nous travaillons également avec des données produites par nos propres services, par exemple des journaux et des métriques. Datalore nous a permis de déboguer des problèmes complexes qui nécessitaient de récupérer des centaines de gigaoctets de données, ainsi que d'identifier des schémas, de visualiser des données et de partager nos analyses.
Nous utilisons principalement pandas et recourons fréquemment à l'onglet Visualize, qui est vraiment intuitif. Cela accélère beaucoup l'exploration des données et en fait une bien meilleure expérience.
Nous collaborons également dans ce cadre. Par exemple, quelqu'un extrait les données et partage le notebook pour le modifier avec l'équipe, puis plus tard quelqu'un d'autre le récupère pour continuer le travail. Nous essayons toujours de créer un rapport à partir de chaque notebook. Une fois l'analyse terminée, nous ajoutons systématiquement une conclusion et appliquons des méthodes de storytelling pour obtenir un résultat significatif.
Datalore nous facilite ce storytelling de données, car nous pouvons extraire les données, effectuer des manipulations complexes avec Python (nous pouvons creuser aussi profondément que nous le voulons), créer des visualisations et exporter les résultats dans un format convivial pour les entreprises. Tout cela est centralisé, et nous n'avons pas à interagir avec plusieurs outils. Nous pouvons produire des rapports PDF ou statiques, voire même les programmer afin qu'ils s'exécutent régulièrement, et suivre l'évolution des fonctionnalités et des mesures au fil du temps. La possibilité d'accéder à l'historique de ces exécutions s'est avérée extrêmement utile pour nous.
« L'exploration des données et les rapports auraient suffit à nous convaincre. Mais nous utilisons également Datalore dans des domaines tels que le prototypage et l'entraînement de modèles, où nous avons constaté qu'un accès facilité aux données permettait d'accélérer les expérimentations. »
Maintenant qu'il est possible d'organiser des notebooks dans des espaces de travail, nous pouvons facilement garder une trace du travail de chaque membre de l'équipe dans le cadre de projets et de sujets spécifiques. Ce problème a déjà été résolu pour le génie logiciel, grâce à Github, Gitlab et d'autres plateformes de type git. Mais en ce qui concerne la science des données et la collaboration sur les notebooks, cela fait la différence pour les entreprises.
« Datalore a grandement facilité notre collaboration et nous savons maintenant où centraliser et organiser tout ce précieux travail. »
Chez TrueLayer, la méthode de travail la plus courante de notre équipe d'ingénieurs ML consiste à nous réunir sur un notebook pour programmer à plusieurs.
Nous utilisons également les plugins PyCharm et Code With Me pour le développement de code. Nous apprécions beaucoup que l'interface et l'expérience d'édition de code en temps réel soient similaires dans les différents outils. Par exemple, nous exécutions un script d'entraînement pour un modèle de ML et nous avons pu collaborer sur un script Python dans les fichiers joints en temps réel. Cela nous a permis d'accéder au code à plusieurs, plutôt que de faire une visioconférence, et a facilité et accéléré la détection et la résolution des problèmes. Cette possibilité d'organiser nos projets dans des espaces de travail et de garder une trace de l'historique a renforcé la productivité des équipes.
Nous avons des serveurs de modèles déployés sur nos clusters, qui sont essentiellement des API Python. Nous avons généralement un notebook d'entraînement dans Datalore. Nous entraînons le modèle, produisons l'artefact du modèle (une archive), puis le déployons sur notre cluster. Nous utilisons ensuite PyCharm et Code With Me pour développer les API du serveur de modèle. La cohérence des interfaces utilisateurs dans les différents outils JetBrains a vraiment facilité ce processus pour l'équipe.
Ces derniers temps, Datalore intéresse beaucoup nos ingénieurs logiciels et chargés des données, qui sont des utilisateurs avertis et souhaitent accéder plus facilement à leurs produits de données. À ce stade, beaucoup d'ingénieurs savent ce qu'est un notebook Jupyter, mais la possibilité de fournir facilement des connexions de données via Datalore aiderait vraiment à abaisser la barrière d'entrée pour les ingénieurs logiciels.
Netanel Golani, un expert en Threat Hunting chez Hunters
Cela fait maintenant un mois que l'équipe de science des données de Hunters utilise Datalore, et nous avons déjà constaté des gains de productivité et d'utilisation dans nos workflows quotidiens, notamment lors de la manipulation de plusieurs sources de données de clients.
Chad Rosenberg, directeur des technologies, Center for New Data
Datalore nous donne simplement des moyens de travailler sur nos données que nous n’aurons pas dans Airflow, comme le débogage des résultats du pipeline, l’essai des webhooks et la visualisation rapide des données grâce aux fonctionnalités de traçage automatique. La possibilité d’utiliser le connecteur Snowflake natif dans Datalore, ainsi que les connecteurs programmatiques dans pandas, a certainement permis de gagner du temps lors du travail sur des notebooks partagés.
Surya Rastogi, data scientist senior, Chainalysis
L’un de nos plus grands défis est que l’espace de la blockchain se développe rapidement ; il y a toujours de nouvelles données à acquérir et à analyser. En tant qu'entreprise, nous disposons de nombreuses fonctions d'acquisition et de traitement de données et nous espérons les voir continuer à croître.