Setor: FinTech
Produtos da JetBrains usados: Datalore
Tamanho da organização: 250-500
País: Reino Unido
A TrueLayer é uma plataforma global de open banking que facilita a criação de experiências financeiras melhores para qualquer pessoa. Empresas de todos os portes, desde startups a grandes corporações, usam a TrueLayer para potencializar seus pagamentos, acessar insights financeiros e integrar clientes no Reino Unido e na Europa. Fundada em 2016, a TrueLayer conta com a confiança de milhões de consumidores e empresas em todo o mundo. Sua visão é criar um sistema financeiro que funcione para todos.
Sou Moreno Raimondo Vendra, engenheiro sênior de machine learning da TrueLayer. Nossa equipe de ML apoia outras equipes na nossa organização que têm necessidades de uso intenso de dados. Nós os ajudamos a lidar com grandes volumes de dados, produzir insights de dados e criar modelos de machine learning a partir desses dados. Contribuímos principalmente para os principais casos de uso do produto da TrueLayer, mas às vezes nosso trabalho também inclui projetos de pesquisa.
A TrueLayer é uma empresa de FinTech e um provedor de open banking, por isso trabalhamos principalmente com dados financeiros. Permitimos que nossos clientes acessem dados bancários abertos, garantindo a conformidade com o RGPD. Um dos projetos do qual minha equipe faz parte busca aprimorar as transações do usuário com informações adicionais do comerciante.
Trabalhar com dados financeiros não é uma tarefa trivial, pois você não pode simplesmente acessar um banco de dados de produção ou um data lake, baixar os dados e trabalhar com eles. Você precisa garantir o acesso seguro aos dados e também gerar insights fáceis de compartilhar.
No passado, tínhamos uma máquina standalone do AWS EC2, na qual era difícil fazer login devido a múltiplas VPNs e credenciais pessoais temporárias que venciam com frequência. Não era fácil fazer upgrade do tamanho da instância para trabalhar com um volume maior de dados. E, é claro, o onboarding era uma grande dor de cabeça para os novos membros da equipe.
“O Datalore permitiu que nossa equipe acessasse ergonomicamente nossos dados e, ao mesmo tempo, atendesse aos requisitos de segurança, o que foi um divisor de águas para nós. Como resultado, pudemos colaborar com muito mais facilidade, tanto dentro de nossa equipe de machine learning quanto com nossas partes interessadas.”
— Moreno Raimondo Vendra, engenheiro sênior de machine learning da TrueLayer
Usamos muito o Datalore em nossa equipe de machine learning de três pessoas e também temos mais duas partes interessadas na empresa.
Os dados com os quais trabalhamos geralmente são produzidos em bancos de dados operacionais, mas depois armazenamos parte desses dados em nosso data lake no AWS S3. O principal tipo de dados com o qual trabalhamos são metadados despersonalizados em transações de open banking. Normalmente o acessamos por meio do cliente Python para S3.
Também trabalhamos com dados produzidos por nossos próprios serviços, como logs e métricas. Com o Datalore, conseguimos depurar problemas complexos que exigiam a recuperação de centenas de gigabytes de dados, além de identificar padrões, visualizar dados e compartilhar nossos insights.
Usamos principalmente pandas e costumamos acessar a aba Visualize, que é muito intuitiva. Isso deixa a exploração de dados muito mais rápida e a torna uma experiência muito melhor.
Também é algo em que trabalhamos de maneira colaborativa. Alguém pode extrair os dados e compartilhar o notebook para editá-lo junto com a equipe e, em seguida, alguém pode pegá-lo e continuar o trabalho depois. Sempre tentamos transformar cada notebook num relatório. Depois da análise, sempre acrescentamos uma conclusão e aplicamos práticas de storytelling para criar um trabalho significativo.
O Datalore nos permite fazer esse storytelling de dados muito bem, já que temos um lugar onde extraímos os dados, fazemos manipulações complexas com Python (podemos nos aprofundar o quanto quisermos), criamos visualizações e exportamos os resultados num formato amigável para nossos clientes de negócio. Podemos fazer isso tudo num só lugar, sem precisar interagir com múltiplas ferramentas. Podemos produzir relatórios em PDF e estáticos e até mesmo agendá-los para serem gerados regularmente acompanhando as alterações de recursos e métricas ao longo do tempo. Poder acessar o histórico dessas execuções foi extremamente útil para nós.
“A exploração de dados e os relatórios foram um caso de uso muito atraente para nós. Mas também usamos o Datalore em áreas como prototipagem e treinamento de modelos, nas quais descobrimos que ter acesso fácil aos dados nos permite fazer experimentos com mais rapidez.”
Agora que podemos organizar notebooks em espaços de trabalho, é fácil acompanhar no que cada membro da equipe está trabalhando para projetos e tópicos específicos. Esse problema já foi resolvido pela engenharia de software, pois existe o Github, o Gitlab e outras plataformas semelhantes ao git. Mas, para a colaboração em ciência de dados e com notebooks, não é algo trivial para as organizações.
“O Datalore tornou a colaboração muito mais fácil, e agora temos um lugar para manter todo esse trabalho valioso junto e organizado.”
Na TrueLayer, somos uma equipe de engenheiros de ML, e nossa prática mais comum é nos reunirmos com um notebook e fazer programação em pares.
Também usamos os plug-ins PyCharm e Code With Me para desenvolvimento de código. Adoramos o fato de que a interface e a experiência de edição de código em tempo real sejam semelhantes entre as diferentes ferramentas. Por exemplo, estávamos executando um script de treinamento para um modelo de ML e pudemos colaborar em um script Python em Attached files em tempo real. Isto nos permitiu trabalhar juntos no código, em vez de participar de um bate-papo por vídeo, o que facilitou e agilizou a identificação e a correção de problemas. Ter um local para organizar o trabalho nas áreas de trabalho e acompanhar o histórico melhorou a produtividade das equipes.
Temos servidores de modelos implantados em nossos clusters, que são essencialmente APIs Python. Geralmente temos um notebook de treinamento no Datalore, treinamos o modelo, produzimos o artefato do modelo (um arquivamento) e o implantamos em nosso cluster. Em seguida, usamos o PyCharm e o Code With Me para desenvolver as APIs do servidor de modelos. Ter interfaces de usuário familiares nas várias ferramentas da JetBrains tornou esse processo muito conveniente para a equipe.
Recentemente, tem havido muito interesse por parte dos nossos engenheiros de software e dados, que são experientes em dados e desejam acessar seus produtos de dados de uma maneira muito mais fácil. Nesse ponto, muitos engenheiros sabem o que é um notebook Jupyter, mas ser capaz de fornecer conexões de dados facilmente por meio do Datalore realmente ajudaria a reduzir a barreira de entrada para engenheiros de software.
Netanel Golani, Especialista em Caça a Ameaças na Hunters
Faz apenas um mês que a equipe de ciência de dados da Hunters começou a usar o Datalore e já vimos melhorias de produtividade e usabilidade no nosso fluxo diário de trabalho — especialmente ao trabalharmos com muitas fontes de dados de clientes.
Chad Rosenberg, Chefe de Tecnologia, Center for New Data
O Datalore simplesmente nos oferece maneiras de trabalhar em nossos dados que não teremos no Airflow, como depurar os resultados do pipeline, testar os webhooks e visualizar rapidamente os dados com recursos de plotagem automática. Ser capaz de usar o conector do Snowflake nativo no Datalore, bem como os programáticos no pandas, definitivamente economizou tempo ao trabalhar em notebooks compartilhados.
Surya Rastogi, cientista de dados sênior da Chainalysis
Um dos nossos maiores desafios é que o espaço de blockchain está se expandindo rapidamente e sempre há novos dados a serem adquiridos e analisados. Como empresa, temos muitas funções de aquisição e processamento de dados e esperamos que elas continuem crescendo.