Industria: Investigación

Productos de JetBrains utilizados: Datalore

Tamaño de la organización: 15

País: Estados Unidos

The Center for New Data

The Center for New Data trabaja con colectivos ciudadanos, empresas tecnológicas y académicos para introducir metodologías pioneras en el movimiento democrático, todo ello impulsado por el big data.

Cómo The Center for New Data procesa a diario 300 GB de datos con Datalore y Airflow

Acerca de The Center for New Data

¿Se podría presentar?

Hola, me llamo Chad Rosenberg y soy el jefe de Tecnología de The Center for New Data (newdata.org). Dirijo las operaciones de infraestructura y gestiono la comunidad nacional de voluntarios de New Data, compuesta por científicos de datos, ingenieros y estadísticos.

¿En qué tipos de proyectos trabaja New Data?

Nuestro programa estrella, el uso de big data para medir el acceso al voto en los Estados Unidos, consiste en analizar los tiempos de espera de millones de votantes en decenas de miles de colegios electorales de todo el país, correlacionándolos con las regiones y el estatus socioeconómico individual, y mostrando que hay diferentes niveles de acceso al voto en función de la zona que se analice. Otro programa nos permite encontrar comunidades de interés con datos de movilidad, en lugar de con enfoques meramente conceptuales. Descubrir cómo podemos organizar mejor estas comunidades, a menudo marginadas, en distritos electorales ayuda a reducir la polarización y a construir una democracia más sana.


Problemas que solucionar

¿Qué le hizo pensar en Datalore o en soluciones alternativas? ¿A qué retos se enfrentó?

La solución anterior de notebook era bastante difícil de mantener. Tenía algunos problemas de dependencias de Kubernetes que no tenían fácil solución. La migración de una versión a otra era muy difícil. El tiempo invertido en Desarrollo y operaciones es muy importante para nosotros, como organización de voluntarios que somos, y nos gustó mucho que Datalore fuera una solución lista para usar con una configuración fácil en nuestro grupo de Kubernetes en AWS. Necesitamos que las cosas funcionen bien y el soporte que nos brindan también facilita las cosas.


«Datalore nos permite crear rápidamente prototipos y compartir los resultados con cualquier persona del equipo. Es una herramienta que ha cambiado la colaboración en toda nuestra organización».

— Chad Rosenberg, jefe de Tecnología, The Center for New Data


La experiencia Datalore

¿Quién utiliza Datalore en su equipo?

Tenemos unos 15 puestos en Datalore y casi todo el equipo trabaja en la calidad de los datos. El equipo de calidad de datos utiliza Datalore para resolver los problemas con los resultados de la programación de Apache Airflow, hacer análisis exploratorios y generar informes sobre los datos.

¿Con qué tipo de datos trabajan?

Actualmente utilizamos Snowflake como base de datos principal. Ingerimos alrededor de 300 GB de datos anónimos de localización de teléfonos móviles de nuestros proveedores de datos, calculamos las principales métricas con Apache Airflow y, después, ponemos los conjuntos de datos resultantes en Snowflake.

¿Cuáles son las principales ventajas de utilizar Datalore?

Datalore nos permite trabajar con nuestros datos de una forma distinta a como lo hacíamos con Airflow, con opciones para depurar los resultados del pipeline, probar los webhooks y visualizar rápidamente los datos con funciones de generación automática de gráficos. Al utilizar el conector nativo de Snowflake en Datalore y los programáticos en Pandas, ahorramos tiempo al trabajar con notebooks compartidos.

También nos gusta mucho la función de publicación de informes, que nos permite sensibilizar al público sobre nuestro trabajo. Podemos generar un informe rápido, publicarlo y dar una URL, sin ofrecer a los lectores la posibilidad de descargar los datos.

¿Cuándo utilizan la conexión de base de datos nativa de Snowflake y las celdas SQL? ¿Y cuándo acceden a la base de datos a través de Python?

Es muy fácil utilizar las celdas SQL nativas y la conexión Snowflake cuando se está empezando a montar la consulta. Si tenemos que ejecutar un bucle en SQL, usamos Pandas y copiamos-pegamos las cadenas SQL allí.

¿Podría dar un ejemplo de cómo colabora su equipo?

Alguien importa los datos utilizando celdas SQL y prepara el marco de datos resultante. A continuación, otros miembros del equipo comienzan a investigar los datos en el mismo notebook, elaboran informes sobre la calidad de los datos y, después, comparamos los resultados con las ejecuciones anteriores.

¿Ha notado alguna mejora en el flujo de trabajo de su equipo de datos?

Datalore nos permite crear rápidamente prototipos y compartir los resultados con cualquier persona del equipo. Es una herramienta que ha cambiado la colaboración en toda nuestra organización.

¿Y ahora?

Todavía no hemos tenido tiempo de configurar la autenticación centralizada en Datalore, pero nos pondremos con ello en los próximos meses. También queremos trabajar en el escalado horizontal en nuestro grupo de Kubernetes (K8s) para ahorrar algo de tiempo de computación.

Mientras, seguimos preparándonos de forma activa para las elecciones de este otoño, y Datalore será una parte integral de nuestros preparativos.

Historias de clientes similares

Hunters

Netanel Golani, experto en detección de amenazas de Hunters

Solo ha pasado un mes desde que el equipo de ciencia de datos de Hunters empezase a utilizar Datalore, y ya hemos visto mejoras de productividad y usabilidad en nuestro flujo de trabajo diario, especialmente al trabajar con varias fuentes de datos de clientes.

Chainalysis

Surya Rastogi, científico de datos senior, Chainalysis

Uno de nuestros mayores retos es que el espacio blockchain se está expandiendo rápidamente y siempre hay nuevos datos que adquirir y analizar. Como empresa tenemos muchas funciones de adquisición y procesamiento de datos, y esperamos que sigan creciendo.

TrueLayer

Moreno Raimondo Vendra, ingeniero sénior de Machine Learning, TrueLayer

Datalore permitió a nuestro equipo acceder de forma ergonómica a nuestros datos cumpliendo al mismo tiempo los requisitos de seguridad, lo que supuso un cambio radical para nosotros. Como resultado, pudimos colaborar mucho más fácilmente tanto dentro de nuestro equipo de Machine Learning como con las partes interesadas.

Más historias de clientes