Industria: Blockchain
Productos de JetBrains utilizados: Datalore
Tamaño de la organización: 500-1000
País: Estados Unidos
Chainalysis proporciona datos, software, servicios e investigación a agencias gubernamentales, bolsas, instituciones financieras y compañías de seguros y ciberseguridad de más de 70 países. Nuestra plataforma de datos respalda herramientas de investigación, cumplimiento y gestión de riesgos que se han utilizado para resolver algunos de los casos de delitos cibernéticos más sonados del mundo y ampliar de forma segura el acceso de los consumidores a la criptomoneda.
Hola, soy Surya Rastogi y trabajo como científico de datos senior en Chainalysis. Paso mucho tiempo analizando varios tipos de datos de blockchain y proporcionando herramientas analíticas a muchos equipos dentro de la empresa. Actualmente, dirijo el desarrollo de nuestras herramientas de investigación.
Chainalysis proporciona datos, software, servicios e investigación a agencias gubernamentales, bolsas, instituciones financieras y compañías de seguros y ciberseguridad en más de 70 países. Nuestra plataforma de datos impulsa la investigación, el cumplimiento y las herramientas de gestión de riesgos que se han utilizado para resolver algunos delitos cibernéticos más destacados del mundo y ampliar de forma segura el acceso de los consumidores a las criptomonedas.
Uno de nuestros mayores retos es la rápida expansión del espacio de la blockchain, ya que siempre hay nuevos datos que adquirir y analizar. Como empresa, tenemos muchas funciones de adquisición y procesamiento de datos, y esperamos que sigan creciendo.
«Datalore nos ofrece una interfaz de alto nivel para todos esos datos, con la que los científicos de datos pueden rebuscar en las diferentes fuentes de datos y combinarlas para obtener conocimientos».
— Surya Rastogi, científico de datos senior, Chainalysis
En total, hay 35 personas en Chainalysis que tienen acceso a Datalore. El departamento de Investigación, que se centra en la I+D y la tecnología profunda, gestiona la instalación de Datalore y da acceso a otras funciones de ciencia de datos. Tenemos científicos de datos de producto que analizan los datos que se envían al producto y auditan estos datos para buscar valores atípicos o intrincados. Los ingenieros de ciencia de datos han comenzado a utilizar Datalore más que nunca desde la reciente introducción de la funcionalidad Scheduling. Hasta ahora, estos ingenieros escribían DAGs de Airflow, pero hemos estado haciendo la transición al uso de ejecuciones programadas para algunos de nuestros casos de uso.
El proceso de incorporación ha madurado y se ha agilizado con Datalore. Antes, la documentación estaba repartida por los repositorios de Git y teníamos páginas web de autodoc, pero ahora con Datalore podemos dar a los recién llegados un notebook de «Primeros pasos», que pueden copiar y utilizar para empezar. Además, como los informes estáticos pueden incluir celdas de código, podemos crear fácilmente informes de documentación desde los que los analistas pueden copiar y pegar fragmentos de ejemplo.
«Datalore ha sido muy útil para reducir las fricciones de la incorporación y documentar nuestros flujos de trabajo.»
Cuando nos incorporamos a Datalore, pensamos que utilizaríamos mucho más las funcionalidades de colaboración en tiempo real para incorporar a nuevas personas, pero curiosamente no lo hacemos. Sin embargo, sí que utilizamos la colaboración en tiempo real para hacer llamadas con varias personas (programación en grupo), pero en la mayoría de los casos es una persona en concreto la que maneja el código.
Tenemos datos binarios «temporales» que se encuentran en almacenes como S3 o minIO, y también aprovechamos S3 como capa de lago de datos superior para nuestros almacenes y lagos de datos. También tenemos bases de datos SQL clásicas, como Postgres. Las integraciones de las bases de datos, que inicialmente no estaban presentes como una funcionalidad, han sido una incorporación muy ventajosa en Datalore. A medida que la funcionalidad se iba desarrollando, muchos de nuestros analistas de SQL se animaron a utilizar más Datalore, ya que tenían acceso a las funcionalidades en las que confiaban desde DataGrip.
Cuando empezamos, Datalore no estaba instalado en AWS, pero lo migramos a AWS para poder beneficiarnos de algunos de los servicios que ya utilizábamos, como Athena. Desde entonces, ha sido bastante fácil añadir todas nuestras fuentes de datos e incluso más almacenes de AWS.
Cuando compartimos los resultados de nuestro trabajo, nos gusta aprovechar principalmente la funcionalidad Reports. Podemos anotar nuestros flujos de trabajo con Markdown, lo que nos permite publicar informes que detallan las fuentes de datos y las transformaciones que se aplicaron para lograr ciertos resultados.
Además, hemos empezado a utilizar Datalore para rellenar las bases de datos analíticas con los resultados de nuestro trabajo. Hasta este momento, habíamos utilizado Airflow para estos casos de uso, pero, al añadir Scheduling, ahora podemos utilizar Datalore. Solíamos tener un DAG que se encargaba de rellenar la base de datos, pero lo hemos sustituido por un notebook Datalore que se ejecuta cada hora. Al principio, utilizábamos Datalore principalmente como una herramienta de solo lectura para las fuentes de datos, pero desde que se añadió Scheduling, hemos comenzado a rellenar algunas bases de datos solamente a través de Datalore. Este flujo de trabajo es más fácil que empezar con una investigación y, después, migrar el código a un DAG para Airflow.
«Scheduling es mi nueva funcionalidad favorita.»
Por último, hay investigadores y analistas que realizan análisis específicos del dominio. Su trabajo se comparte como «runbooks» analíticos para investigaciones publicando un informe interactivo para sus compañeros. Siempre que se necesite un análisis similar, el informe puede reutilizarse compartiendo el enlace.
En nuestro equipo de investigación principal, hay grupos basados en proyectos que se reunen para abrir los notebooks compartidos en Datalore y revisarlos juntos. Como he comentado antes, los ingenieros de datos han empezado a colaborar recientemente con los científicos de datos, utilizando ejecuciones programadas para alimentar los datos.
En primer lugar, seguimos consolidando parte de nuestra infraestructura de ciencia de datos. Datalore nos permite prescindir de herramientas como nbviewer (para mostrar los notebooks) y Google Colab (para colaborar en los notebooks). Y ahora, con la función Scheduling, hemos empezado a consolidar algunos de nuestros casos de uso de Airflow en Datalore.
En segundo lugar, cuando introduje inicialmente Datalore en Chainalysis, solo reuní a todos aquellos que utilizan Python para la ciencia de datos y, después, a los analistas más centrados en SQL. En el futuro también podríamos querer ampliar nuestra instalación para manejar casos de uso de Business Intelligence (por ejemplo, paneles empresariales).
Por último, pero no por ello menos importante, nos hemos empezado a centrar en las interfaces de usuario para la ciencia de datos y hemos creado una herramienta interna con enlaces a los informes interactivos más importantes y otros paneles. Hemos podido integrarla en Datalore, lo que nos permite crear iframes de navegación entre nuestros distintos frontends de ciencia de datos.
Netanel Golani, experto en detección de amenazas de Hunters
Solo ha pasado un mes desde que el equipo de ciencia de datos de Hunters empezase a utilizar Datalore, y ya hemos visto mejoras de productividad y usabilidad en nuestro flujo de trabajo diario, especialmente al trabajar con varias fuentes de datos de clientes.
Chad Rosenberg, jefe de Tecnología, The Center for New Data
Datalore solo nos ofrece formas de trabajar con nuestros datos que no obtendremos en Airflow, como depurar los resultados del proceso, probar los webhooks y visualizar rápidamente los datos con funciones de trazado automático. Poder utilizar el conector nativo Snowflake en Datalore, así como los programáticos en pandas, ha supuesto sin duda un ahorro de tiempo cuando se trabaja en cuadernos compartidos.
Moreno Raimondo Vendra, ingeniero sénior de Machine Learning, TrueLayer
Datalore permitió a nuestro equipo acceder de forma ergonómica a nuestros datos cumpliendo al mismo tiempo los requisitos de seguridad, lo que supuso un cambio radical para nosotros. Como resultado, pudimos colaborar mucho más fácilmente tanto dentro de nuestro equipo de Machine Learning como con las partes interesadas.