Setor: Blockchain
Produtos da JetBrains usados: Datalore
Tamanho da organização: 500-1000
País: Estados Unidos
A Chainalysis fornece dados, software, serviços e pesquisas para agências governamentais, bolsas, instituições financeiras e empresas de seguros e segurança cibernética em mais de 70 países. Nossa plataforma de dados fornece ferramentas de investigação, conformidade e gerenciamento de riscos que têm sido usadas para resolver alguns dos casos de crimes cibernéticos mais importantes do mundo e expandir com segurança o acesso dos consumidores a criptomoedas.
Olá, sou Surya Rastogi, cientista de dados sênior da Chainalysis. Eu gasto muito tempo analisando uma variedade de dados de blockchain e fornecendo ferramentas analíticas para muitas equipes dentro da empresa. Atualmente, lidero o desenvolvimento das nossas ferramentas de pesquisa.
A Chainalysis fornece dados, software, serviços e pesquisas para agências governamentais, bolsas, instituições financeiras e empresas de seguros e segurança cibernética em mais de 70 países. Nossa plataforma de dados fornece ferramentas de investigação, conformidade e gerenciamento de riscos que têm sido usadas para resolver alguns dos casos de crimes cibernéticos mais importantes do mundo e expandir com segurança o acesso dos consumidores a criptomoedas.
Um dos nossos maiores desafios é que o espaço de blockchain está se expandindo rapidamente e sempre há novos dados a serem adquiridos e analisados. Como empresa, temos muitas funções de aquisição e processamento de dados e esperamos que elas continuem crescendo.
“O Datalore nos fornece uma interface de nível superior sobre todos esses dados, onde os cientistas de dados podem vasculhar cada uma dessas diferentes fontes de dados e combiná-las para obter insights.”
— Surya Rastogi, cientista de dados sênior da Chainalysis
No geral, há 35 pessoas na Chainalysis que têm acesso ao Datalore. O departamento de pesquisa, que se concentra em pesquisa e desenvolvimento e tecnologias avançadas, gerencia a instalação do Datalore e fornece acesso a outras funções de ciência de dados. Temos cientistas de dados de produtos analisando dados para enviar ao produto e auditando esses dados para procurar possíveis discrepâncias e complexidades. Os engenheiros de ciência de dados começaram a usar o Datalore mais do que nunca desde a recente introdução do recurso Scheduling. Tradicionalmente, esses engenheiros escreviam DAGs do Airflow, mas estamos fazendo a transição para o uso de execuções programadas para alguns de nossos casos de uso.
O processo de integração amadureceu e foi simplificado com o Datalore. Antes, tínhamos documentação espalhada por repositórios Git e tínhamos páginas web de autodoc, mas agora, com o Datalore, podemos dar aos recém-chegados um notebook de “introdução”, que eles podem copiar e usar para começar. Além disso, como os relatórios estáticos podem incluir células de código, é fácil criar relatórios de documentação de onde os analistas poderão copiar e colar trechos de exemplo.
“O Datalore tem sido muito útil para reduzir os atritos da incorporação e documentar nossos workflows.”
Quando incorporamos inicialmente o Datalore, pensamos em usar muito mais os recursos de colaboração em tempo real ao realizar a incorporação de novos funcionários. Porém, curiosamente, não foi isso o que aconteceu. No entanto, usamos a colaboração em tempo real para chamadas com várias pessoas (efetivamente para a programação de multidões), mas, na maioria dos cenários, é uma pessoa em particular que conduz o código.
Temos dados binários de “rascunho” que ficam em armazenamentos como o S3 ou o minIO e também aproveitamos o S3 como uma camada de data lake upstream dos nossos data warehouses e lakehouses. Também temos vários bancos de dados SQL clássicos, como o Postgres. As integrações de banco de dados, que não estavam presentes inicialmente como um recurso, foram uma inclusão muito boa no Datalore. À medida que o recurso foi sendo desenvolvido, muitos dos nossos analistas de SQL ficaram capacitados para usar ainda mais o Datalore, pois tinham acesso aos recursos com os quais eles contavam no DataGrip.
Quando começamos, o Datalore não estava instalado na AWS, mas o migramos para a AWS para que pudéssemos nos beneficiar de alguns dos serviços que já usávamos, como o Athena. Desde então, tem sido muito fácil adicionar todas as nossas fontes de dados e ainda mais armazenamentos da AWS.
Ao compartilhar os resultados do nosso trabalho, gostamos principalmente de aproveitar o recurso Reports. Ele nos permite anotar nossos workflows com markdown, permitindo que publiquemos relatórios que detalham as fontes de dados e as transformações que foram aplicadas para alcançar determinados resultados.
Além disso, começamos a aproveitar o Datalore para preencher bancos de dados analíticos com os resultados do nosso trabalho. Tradicionalmente, usávamos o Airflow para esses casos de uso, mas, com a adição do Scheduling, conseguimos usar o Datalore. Costumávamos ter um DAG que era responsável por algumas populações de banco de dados, mas o substituímos por um notebook do Datalore que é executado a cada hora. Inicialmente, usávamos principalmente o Datalore como uma ferramenta somente leitura para fontes de dados, mas, desde a adição do Scheduling, começamos a preencher alguns bancos de dados unicamente por meio do Datalore. Esse workflow é mais fácil do que começar com uma investigação e depois migrar o código para um DAG para Airflow.
“O Scheduling é meu novo recurso favorito.”
Por último, há investigadores e analistas que fazem análises específicas de domínio. O trabalho deles é compartilhado como "runbooks" analíticos para investigações, publicando um relatório interativo para seus colegas. Sempre que uma análise semelhante é necessária, o relatório pode ser reutilizado com o simples compartilhamento do link.
Em nossa equipe principal de pesquisa, existem grupos baseados em projetos. Esses grupos têm reuniões em que todos abrem notebooks compartilhados no Datalore e os analisam juntos. Como mencionei antes, os engenheiros de dados começaram recentemente a colaborar com cientistas de dados, utilizando execuções programadas para preencher dados.
Primeiro, continuamos a consolidar parte da nossa infraestrutura de ciência de dados. O Datalore nos permite eliminar a necessidade de ferramentas como o nbviewer (para exibir notebooks) e o Google Colab (para colaborar em notebooks). E agora, com o recurso Scheduling, começamos a consolidar alguns de nossos casos de uso do Airflow no Datalore.
Em segundo lugar, quando apresentei inicialmente o Datalore na Chainalysis, acabei reunindo todos que usam o Python para ciência de dados e mais analistas centrados em SQL. No futuro, também queremos expandir nossa instalação para lidar com casos de uso de Business Intelligence (por exemplo, painéis de negócios).
E, por último, mas não menos importante, começamos a focar em interfaces do usuário para ciência de dados e criamos uma ferramenta interna com links para os relatórios interativos mais importantes e outros painéis de controle. Conseguimos incorporar isso no Datalore, permitindo criar iframes de navegação entre nossos vários frontends de ciência de dados.
Netanel Golani, Especialista em Caça a Ameaças na Hunters
Faz apenas um mês que a equipe de ciência de dados da Hunters começou a usar o Datalore e já vimos melhorias de produtividade e usabilidade no nosso fluxo diário de trabalho — especialmente ao trabalharmos com muitas fontes de dados de clientes.
Chad Rosenberg, Chefe de Tecnologia, Center for New Data
O Datalore simplesmente nos oferece maneiras de trabalhar em nossos dados que não teremos no Airflow, como depurar os resultados do pipeline, testar os webhooks e visualizar rapidamente os dados com recursos de plotagem automática. Ser capaz de usar o conector do Snowflake nativo no Datalore, bem como os programáticos no pandas, definitivamente economizou tempo ao trabalhar em notebooks compartilhados.
Moreno Raimondo Vendra, engenheiro sênior de machine learning da TrueLayer
O Datalore permitiu que nossa equipe acessasse ergonomicamente nossos dados e, ao mesmo tempo, atendesse aos requisitos de segurança, o que foi um divisor de águas para nós. Como resultado, pudemos colaborar com muito mais facilidade, tanto dentro de nossa equipe de machine learning quanto com nossas partes interessadas.