Industria: FinTech

Productos de JetBrains utilizados: Datalore

Tamaño de la organización: 250-500

País: Reino Unido

TrueLayer

TrueLayer es una plataforma global de banca abierta que facilita a quien lo desee la creación de mejores experiencias financieras. Empresas de todos los tamaños, desde las emergentes hasta grandes empresas, utilizan TrueLayer para basar en él sus pagos, acceder a información financiera y captar clientes en todo el Reino Unido y Europa. Fundada en 2016, TrueLayer cuenta con la confianza de millones de consumidores y empresas de todo el mundo. Su visión es crear un sistema financiero que funcione para todos.

Cómo TrueLayer utiliza Datalore para colaboraciones seguras

Acerca de TrueLayer

¿Se podría presentar?

Soy Moreno Raimondo Vendra, ingeniero sénior de Machine Learning de TrueLayer. Nuestro equipo de ML ofrece asistencia a otros equipos de la organización que necesitan gestionar muchos datos. Les ayudamos a manejar grandes volúmenes de datos, producir información sobre estos y crear modelos de Machine Learning a partir de esos. Solemos centrarnos en casos de uso del producto principal de TrueLayer, pero, a veces, también participamos en proyectos de investigación.

¿En qué tipos de proyectos trabaja TrueLayer?

TrueLayer es una empresa FinTech y un proveedor de banca abierta, por lo que trabajamos principalmente con datos financieros. Gracias a este producto, nuestros clientes pueden acceder a datos bancarios abiertos y cumplir con el RGPD. Uno de los proyectos en los que participa mi equipo consiste en complementar las transacciones de los usuarios con información adicional sobre los comercios.


Problemas que solucionar

¿Qué le hizo pensar en Datalore o en soluciones alternativas? ¿A qué retos se enfrentó?

Trabajar con datos financieros no es una tarea trivial, ya que no basta con acceder a una base de datos de producción o a un lago de datos, descargar los datos y trabajar con ellos. Es necesario garantizar un acceso seguro a los datos y producir información que sea fácil de compartir.

Antes, teníamos una máquina AWS EC2 independiente a la que era difícil acceder, dado que había varias VPN y las credenciales personales temporales caducaban con frecuencia. No era fácil ampliar el tamaño de la instancia para trabajar con un mayor volumen de datos y, por supuesto, la incorporación de nuevos miembros del equipo era un engorro.


«Datalore permitió a nuestro equipo acceder a nuestros datos de forma ergonómica, además de que cumplía con los requisitos de seguridad, lo que supuso un cambio radical. Gracias a ello, pudimos colaborar mucho más fácilmente tanto dentro de nuestro equipo de Machine Learning como con el resto de grupos de interés.»

— Moreno Raimondo Vendra, ingeniero sénior de Machine Learning, TrueLayer


La experiencia Datalore

¿Quién utiliza Datalore en su equipo?

En nuestro equipo de Machine Learning, formado por tres personas, utilizamos mucho Datalore.

¿Con qué tipo de datos trabajan?

Los datos con los que trabajamos suelen producirse en bases de datos operativas, pero luego almacenamos parte de estos en nuestro lago de datos en AWS S3. El principal tipo de datos con el que trabajamos son los metadatos anonimizados sobre transacciones bancarias abiertas, a los que accedemos normalmente a través del cliente Python para S3.

También trabajamos con los datos que producen nuestros propios servicios, como los registros y las métricas. Con Datalore, pudimos depurar problemas complejos que requerían recuperar cientos de gigabytes de datos, así como identificar patrones, visualizar datos y compartir nuestras percepciones.

¿Cómo se exploran los datos en Datalore?

Utilizamos sobre todo pandas y, a menudo, la pestaña Visualizar, que es muy intuitiva y hace que la exploración de datos sea mucho más rápida y la experiencia sea mejor.

También trabajamos de forma colaborativa. Una persona puede extraer los datos y compartir el notebook con el equipo para editarlo; otra persona lo retomará y seguirá trabajando en este más tarde. Intentamos que cada notebook sea un informe, de modo que, una vez finalizado el análisis, añadimos una conclusión y aplicamos técnicas de narración para aportarle coherencia.

Datalore nos permite hacer muy bien esta narración de los datos, ya que tenemos un lugar donde sacar los datos, hacer manipulaciones complejas con Python (podemos profundizar hasta donde queramos), crear visualizaciones y exportar los resultados en un formato que resulte agradable para las empresas. Podemos hacerlo sin tener que interactuar con varias herramientas, además de generar informes en PDF o estáticos, e incluso programarlos para que se ejecuten de forma periódica, y hacer un seguimiento de las características y métricas que han cambiado con el tiempo. Poder acceder al historial de estas ejecuciones nos resultó extremadamente útil.


«La exploración de datos y los informes nos convecieron, pero también utilizamos Datalore para la creación de prototipos de modelos o para formación, donde vimos que acceder fácilmente a los datos nos permitía experimentar más rápidamente.»


Ahora que podemos organizar los notebooks en espacios de trabajo, es fácil hacer un seguimiento de en qué ha estado trabajando cada miembro del equipo para proyectos y temas específicos. Este problema ya lo resuelve la ingeniería de software, gracias a Github, Gitlab y otras plataformas parecidas a git. Sin embargo, la ciencia de datos y la colaboración en notebooks no son temas triviales para las empresas.


«Datalore ha facilitado mucho la colaboración y ahora tenemos un lugar donde agrupar todo ese valioso trabajo de forma organizada.»


¿Podría dar un ejemplo de cómo colabora su equipo?

En TrueLayer, somos un equipo de ingenieros de ML que solemos reunirnos en un notebook y programar por parejas.

También utilizamos los plugins PyCharm y Code With Me para desarrollar código. Nos encanta que la interfaz y la experiencia de editar código en tiempo real sea similar en todas las herramientas. Por ejemplo, estábamos ejecutando un script de entrenamiento para un modelo de ML y pudimos colaborar en un script de Python en archivos adjuntos en tiempo real. Pudimos trabajar todos juntos con el código, en lugar de estar en una videollamada, lo que hizo que detectar y solucionar problemas fuera más fácil y rápido. Tener un lugar para organizarnos en espacios de trabajo mientras se hace un seguimiento del historial ha mejorado la productividad de los equipos.

¿Cómo combináis PyCharm, Code With Me y Datalore en vuestros proyectos?

Tenemos servidores de modelos desplegados en nuestros clusters, que son, básicamente, API de Python. Normalmente, tenemos un notebook de entrenamiento en Datalore, donde entrenamos el modelo, producimos el artefacto de este (un archivo) y lo implementamos en nuestro grupo. A continuación, utilizamos PyCharm y Code With Me para desarrollar las API del servidor de modelos. Tener interfaces de usuario parecidas en todas las herramientas de JetBrains ha hecho que este proceso sea muy cómodo para el equipo.

¿Y ahora?

Hace poco, nuestros ingenieros de software y datos, que son expertos en datos y quieren acceder a sus productos de datos de una manera mucho más fácil, han mostrado mucho interés. Ahora mismo, muchos ingenieros conocen los notebooks de Jupyter, pero poder proporcionar fácilmente conexiones de datos a través de Datalore permitiría a los ingenieros de software acceder más fácilmente.

Historias de clientes similares

Hunters

Netanel Golani, experto en detección de amenazas de Hunters

Solo ha pasado un mes desde que el equipo de ciencia de datos de Hunters empezase a utilizar Datalore, y ya hemos visto mejoras de productividad y usabilidad en nuestro flujo de trabajo diario, especialmente al trabajar con varias fuentes de datos de clientes.

The Center for New Data

Chad Rosenberg, jefe de Tecnología, The Center for New Data

Datalore solo nos ofrece formas de trabajar con nuestros datos que no obtendremos en Airflow, como depurar los resultados del proceso, probar los webhooks y visualizar rápidamente los datos con funciones de trazado automático. Poder utilizar el conector nativo Snowflake en Datalore, así como los programáticos en pandas, ha supuesto sin duda un ahorro de tiempo cuando se trabaja en cuadernos compartidos.

Chainalysis

Surya Rastogi, científico de datos senior, Chainalysis

Uno de nuestros mayores retos es que el espacio blockchain se está expandiendo rápidamente y siempre hay nuevos datos que adquirir y analizar. Como empresa tenemos muchas funciones de adquisición y procesamiento de datos, y esperamos que sigan creciendo.

Más historias de clientes