Setor: Pesquisa

Produtos da JetBrains usados: Datalore

Tamanho da organização: 15

País: Estados Unidos

O Center for New Data

O Center for New Data trabalha com grupos de atuação social, empresas de tecnologia e o meio acadêmico para levar metodologias pioneiras ao movimento pela democracia — tudo baseado em big data.

Como o Center for New Data processa 300 GB de dados diariamente com o Datalore e o Airflow

Sobre o Center for New Data

Poderia, por favor, se apresentar?

Oi, sou Chad Rosenberg, Chefe de Tecnologia do Center for New Data (newdata.org). Eu dirijo as operações de infraestrutura e administro a equipe nacional de cientistas de dados, engenheiros e estatísticos voluntários do Center for New Data.

Em que tipos de projetos o Center for New Data está envolvido?

Nosso principal programa, que usa big data para medir o acesso ao voto nos Estados Unidos, envolve a análise dos tempos de espera de milhões de eleitores em dezenas de milhares de locais de votação em todo o país, correlacionando esses tempos com regiões e status socioeconômico e mostrando que locais diferentes têm níveis diferentes de acesso à votação. Um outro programa nos faz identificar comunidades de interesse através de dados de mobilidade, em vez de meras abordagens conceituais. Descobrir como organizar melhor essas comunidades frequentemente marginalizadas em distritos eleitorais ajuda a reduzir a polarização e construir uma democracia mais saudável.


Problemas para resolver

O que fez vocês procurarem o Datalore ou soluções alternativas? Quais foram os desafios que vocês enfrentaram?

A solução anterior usando notebooks era muito difícil de manter. Tinha uns problemas com dependências do Kubernetes que eram difíceis de solucionar. A migração de uma versão para outra era muito complicada. Como somos uma organização de voluntários, o tempo de DevOps é muito importante para nós e adoramos o fato do Datalore ser uma solução pronta para usar, que conseguimos configurar no nosso cluster de Kubernetes na AWS. Precisamos de coisas que simplesmente funcionem e ter o suporte incluído também facilita as coisas.


“O Datalore permite que nossa equipe monte protótipos rapidamente e compartilhe os resultados com qualquer membro da equipe. Ele se tornou uma ferramenta que virou o jogo na colaboração através de toda a nossa organização.”

— Chad Rosenberg, Chefe de Tecnologia, Center for New Data


A experiência com o Datalore

Quem usa o Datalore na sua equipe?

Temos em torno de 15 licenças do Datalore e a maior parte da nossa equipe está trabalhando em qualidade de dados. A equipe de qualidade de dados usa o Datalore para resolver problemas nos resultados de agendamento do Apache Airflow, fazer análises exploratórias e montar relatórios sobre os dados.

Com que tipos de dados vocês trabalham?

No momento, estamos usando o Snowflake como banco de dados principal. Obtemos cerca de 300 GB de dados anonimizados de localização de celulares vindos dos nossos provedores de dados, calculamos as métricas principais com o Apache Airflow e então colocamos os conjuntos de dados resultantes no Snowflake.

Quais são os principais benefícios que vocês obtêm com o uso do Datalore?

Com o Datalore podemos trabalhar com nossos dados de maneiras que o Airflow não permite, como depurar os resultados do pipeline, testar os webhooks e visualizar os dados rapidamente com recursos automáticos de traçado de gráficos. A possibilidade de usar o conector nativo do Snowflake no Datalore e os conectores nativos em pandas tem nos poupado bastante tempo quando trabalhamos com notebooks compartilhados.

Também adoramos o recurso de publicação de relatórios. Ele permite que um público mais amplo veja os resultados do nosso trabalho. Podemos simplesmente montar um relatório rápido, publicá-lo e dizer "aqui está uma URL", sem dar aos visualizadores a capacidade de baixar dados.

Quando vocês usam a conexão nativa com o banco de dados Snowflake e células de SQL? E quando vocês acessam seu banco de dados através do Python?

É muito fácil usar as células nativas do SQL e a conexão com o Snowflake quando se está começando a montar a consulta. Quando precisamos executar um loop no SQL, usamos pandas e copiamos e colamos as strings do SQL.

Você poderia dar um exemplo de como a sua equipe colabora?

Alguém importa os dados usando células de SQL e prepara a estrutura de dados resultante. Então, outros membros da equipe começam a investigar os dados no mesmo notebook e produzir relatórios da qualidade dos dados. Por fim, comparamos os resultados com as execuções anteriores.

Você percebeu alguma melhoria no fluxo de trabalho da sua equipe de dados?

O Datalore permite que nossa equipe monte protótipos rapidamente e compartilhe os resultados com qualquer membro da equipe. Ele se tornou uma ferramenta que virou o jogo na colaboração através de toda a nossa organização.

Qual é o próximo passo?

Ainda não tivemos tempo de configurar a autenticação centralizada no Datalore, mas vamos trabalhar nisso nos próximos meses. Também queremos ajustar o escalonamento horizontal do nosso cluster Kubernetes (K8s) para pouparmos algum tempo de processamento.

Nesse meio tempo, estamos nos preparando ativamente para as eleições de meio de mandato neste outono e o Datalore será uma parte integral dos nossos preparativos.

Histórias de clientes semelhantes

Hunters

Netanel Golani, Especialista em Caça a Ameaças na Hunters

Faz apenas um mês que a equipe de ciência de dados da Hunters começou a usar o Datalore e já vimos melhorias de produtividade e usabilidade no nosso fluxo diário de trabalho — especialmente ao trabalharmos com muitas fontes de dados de clientes.

Chainalysis

Surya Rastogi, cientista de dados sênior da Chainalysis

Um dos nossos maiores desafios é que o espaço de blockchain está se expandindo rapidamente e sempre há novos dados a serem adquiridos e analisados. Como empresa, temos muitas funções de aquisição e processamento de dados e esperamos que elas continuem crescendo.

TrueLayer

Moreno Raimondo Vendra, engenheiro sênior de machine learning da TrueLayer

O Datalore permitiu que nossa equipe acessasse ergonomicamente nossos dados e, ao mesmo tempo, atendesse aos requisitos de segurança, o que foi um divisor de águas para nós. Como resultado, pudemos colaborar com muito mais facilidade, tanto dentro de nossa equipe de machine learning quanto com nossas partes interessadas.

Mais histórias de clientes