Setor: Blockchain

Produtos da JetBrains usados: Datalore

Tamanho da organização: 500-1000

País: Estados Unidos

Chainalysis

A Chainalysis fornece dados, software, serviços e pesquisas para agências governamentais, bolsas, instituições financeiras e empresas de seguros e segurança cibernética em mais de 70 países. Nossa plataforma de dados fornece ferramentas de investigação, conformidade e gerenciamento de riscos que têm sido usadas para resolver alguns dos casos de crimes cibernéticos mais importantes do mundo e expandir com segurança o acesso dos consumidores a criptomoedas.

Como a Chainalysis usa o Datalore para análises de blockchain

Sobre a Chainalysis

Poderia, por favor, se apresentar?

Olá, sou Surya Rastogi, cientista de dados sênior da Chainalysis. Eu gasto muito tempo analisando uma variedade de dados de blockchain e fornecendo ferramentas analíticas para muitas equipes dentro da empresa. Atualmente, lidero o desenvolvimento das nossas ferramentas de pesquisa.

Em que tipo de projetos a Chainalysis está envolvida?

A Chainalysis fornece dados, software, serviços e pesquisas para agências governamentais, bolsas, instituições financeiras e empresas de seguros e segurança cibernética em mais de 70 países. Nossa plataforma de dados fornece ferramentas de investigação, conformidade e gerenciamento de riscos que têm sido usadas para resolver alguns dos casos de crimes cibernéticos mais importantes do mundo e expandir com segurança o acesso dos consumidores a criptomoedas.


Problemas para resolver

O que fez vocês procurarem o Datalore ou soluções alternativas? Quais foram os desafios que vocês enfrentaram?

Um dos nossos maiores desafios é que o espaço de blockchain está se expandindo rapidamente e sempre há novos dados a serem adquiridos e analisados. Como empresa, temos muitas funções de aquisição e processamento de dados e esperamos que elas continuem crescendo.


“O Datalore nos fornece uma interface de nível superior sobre todos esses dados, onde os cientistas de dados podem vasculhar cada uma dessas diferentes fontes de dados e combiná-las para obter insights.”

— Surya Rastogi, cientista de dados sênior da Chainalysis


A experiência com o Datalore

Quem usa o Datalore na sua equipe?

No geral, há 35 pessoas na Chainalysis que têm acesso ao Datalore. O departamento de pesquisa, que se concentra em pesquisa e desenvolvimento e tecnologias avançadas, gerencia a instalação do Datalore e fornece acesso a outras funções de ciência de dados. Temos cientistas de dados de produtos analisando dados para enviar ao produto e auditando esses dados para procurar possíveis discrepâncias e complexidades. Os engenheiros de ciência de dados começaram a usar o Datalore mais do que nunca desde a recente introdução do recurso Scheduling. Tradicionalmente, esses engenheiros escreviam DAGs do Airflow, mas estamos fazendo a transição para o uso de execuções programadas para alguns de nossos casos de uso.

Sua equipe cresceu bastante no ano passado. O processo de incorporação mudou após a adoção do Datalore?

O processo de integração amadureceu e foi simplificado com o Datalore. Antes, tínhamos documentação espalhada por repositórios Git e tínhamos páginas web de autodoc, mas agora, com o Datalore, podemos dar aos recém-chegados um notebook de “introdução”, que eles podem copiar e usar para começar. Além disso, como os relatórios estáticos podem incluir células de código, é fácil criar relatórios de documentação de onde os analistas poderão copiar e colar trechos de exemplo.


“O Datalore tem sido muito útil para reduzir os atritos da incorporação e documentar nossos workflows.”


Quando incorporamos inicialmente o Datalore, pensamos em usar muito mais os recursos de colaboração em tempo real ao realizar a incorporação de novos funcionários. Porém, curiosamente, não foi isso o que aconteceu. No entanto, usamos a colaboração em tempo real para chamadas com várias pessoas (efetivamente para a programação de multidões), mas, na maioria dos cenários, é uma pessoa em particular que conduz o código.

Com que tipos de dados vocês trabalham?

Temos dados binários de “rascunho” que ficam em armazenamentos como o S3 ou o minIO e também aproveitamos o S3 como uma camada de data lake upstream dos nossos data warehouses e lakehouses. Também temos vários bancos de dados SQL clássicos, como o Postgres. As integrações de banco de dados, que não estavam presentes inicialmente como um recurso, foram uma inclusão muito boa no Datalore. À medida que o recurso foi sendo desenvolvido, muitos dos nossos analistas de SQL ficaram capacitados para usar ainda mais o Datalore, pois tinham acesso aos recursos com os quais eles contavam no DataGrip.

Quando começamos, o Datalore não estava instalado na AWS, mas o migramos para a AWS para que pudéssemos nos beneficiar de alguns dos serviços que já usávamos, como o Athena. Desde então, tem sido muito fácil adicionar todas as nossas fontes de dados e ainda mais armazenamentos da AWS.

Como você compartilha os resultados do seu trabalho?

Ao compartilhar os resultados do nosso trabalho, gostamos principalmente de aproveitar o recurso Reports. Ele nos permite anotar nossos workflows com markdown, permitindo que publiquemos relatórios que detalham as fontes de dados e as transformações que foram aplicadas para alcançar determinados resultados.

Além disso, começamos a aproveitar o Datalore para preencher bancos de dados analíticos com os resultados do nosso trabalho. Tradicionalmente, usávamos o Airflow para esses casos de uso, mas, com a adição do Scheduling, conseguimos usar o Datalore. Costumávamos ter um DAG que era responsável por algumas populações de banco de dados, mas o substituímos por um notebook do Datalore que é executado a cada hora. Inicialmente, usávamos principalmente o Datalore como uma ferramenta somente leitura para fontes de dados, mas, desde a adição do Scheduling, começamos a preencher alguns bancos de dados unicamente por meio do Datalore. Esse workflow é mais fácil do que começar com uma investigação e depois migrar o código para um DAG para Airflow.


“O Scheduling é meu novo recurso favorito.”


Por último, há investigadores e analistas que fazem análises específicas de domínio. O trabalho deles é compartilhado como "runbooks" analíticos para investigações, publicando um relatório interativo para seus colegas. Sempre que uma análise semelhante é necessária, o relatório pode ser reutilizado com o simples compartilhamento do link.

Você poderia dar um exemplo de como a sua equipe colabora?

Em nossa equipe principal de pesquisa, existem grupos baseados em projetos. Esses grupos têm reuniões em que todos abrem notebooks compartilhados no Datalore e os analisam juntos. Como mencionei antes, os engenheiros de dados começaram recentemente a colaborar com cientistas de dados, utilizando execuções programadas para preencher dados.

Qual é o próximo passo?

Primeiro, continuamos a consolidar parte da nossa infraestrutura de ciência de dados. O Datalore nos permite eliminar a necessidade de ferramentas como o nbviewer (para exibir notebooks) e o Google Colab (para colaborar em notebooks). E agora, com o recurso Scheduling, começamos a consolidar alguns de nossos casos de uso do Airflow no Datalore.

Em segundo lugar, quando apresentei inicialmente o Datalore na Chainalysis, acabei reunindo todos que usam o Python para ciência de dados e mais analistas centrados em SQL. No futuro, também queremos expandir nossa instalação para lidar com casos de uso de Business Intelligence (por exemplo, painéis de negócios).

E, por último, mas não menos importante, começamos a focar em interfaces do usuário para ciência de dados e criamos uma ferramenta interna com links para os relatórios interativos mais importantes e outros painéis de controle. Conseguimos incorporar isso no Datalore, permitindo criar iframes de navegação entre nossos vários frontends de ciência de dados.

Histórias de clientes semelhantes

Hunters

Netanel Golani, Especialista em Caça a Ameaças na Hunters

Faz apenas um mês que a equipe de ciência de dados da Hunters começou a usar o Datalore e já vimos melhorias de produtividade e usabilidade no nosso fluxo diário de trabalho — especialmente ao trabalharmos com muitas fontes de dados de clientes.

O Center for New Data

Chad Rosenberg, Chefe de Tecnologia, Center for New Data

O Datalore simplesmente nos oferece maneiras de trabalhar em nossos dados que não teremos no Airflow, como depurar os resultados do pipeline, testar os webhooks e visualizar rapidamente os dados com recursos de plotagem automática. Ser capaz de usar o conector do Snowflake nativo no Datalore, bem como os programáticos no pandas, definitivamente economizou tempo ao trabalhar em notebooks compartilhados.

TrueLayer

Moreno Raimondo Vendra, engenheiro sênior de machine learning da TrueLayer

O Datalore permitiu que nossa equipe acessasse ergonomicamente nossos dados e, ao mesmo tempo, atendesse aos requisitos de segurança, o que foi um divisor de águas para nós. Como resultado, pudemos colaborar com muito mais facilidade, tanto dentro de nossa equipe de machine learning quanto com nossas partes interessadas.

Mais histórias de clientes