Industria: Investigación
Productos de JetBrains utilizados: Datalore
Tamaño de la organización: 15
País: Estados Unidos
Hola, me llamo Chad Rosenberg y soy el jefe de Tecnología de The Center for New Data (newdata.org). Dirijo las operaciones de infraestructura y gestiono la comunidad nacional de voluntarios de New Data, compuesta por científicos de datos, ingenieros y estadísticos.
Nuestro programa estrella, el uso de big data para medir el acceso al voto en los Estados Unidos, consiste en analizar los tiempos de espera de millones de votantes en decenas de miles de colegios electorales de todo el país, correlacionándolos con las regiones y el estatus socioeconómico individual, y mostrando que hay diferentes niveles de acceso al voto en función de la zona que se analice. Otro programa nos permite encontrar comunidades de interés con datos de movilidad, en lugar de con enfoques meramente conceptuales. Descubrir cómo podemos organizar mejor estas comunidades, a menudo marginadas, en distritos electorales ayuda a reducir la polarización y a construir una democracia más sana.
La solución anterior de notebook era bastante difícil de mantener. Tenía algunos problemas de dependencias de Kubernetes que no tenían fácil solución. La migración de una versión a otra era muy difícil. El tiempo invertido en Desarrollo y operaciones es muy importante para nosotros, como organización de voluntarios que somos, y nos gustó mucho que Datalore fuera una solución lista para usar con una configuración fácil en nuestro grupo de Kubernetes en AWS. Necesitamos que las cosas funcionen bien y el soporte que nos brindan también facilita las cosas.
«Datalore nos permite crear rápidamente prototipos y compartir los resultados con cualquier persona del equipo. Es una herramienta que ha cambiado la colaboración en toda nuestra organización».
— Chad Rosenberg, jefe de Tecnología, The Center for New Data
Tenemos unos 15 puestos en Datalore y casi todo el equipo trabaja en la calidad de los datos. El equipo de calidad de datos utiliza Datalore para resolver los problemas con los resultados de la programación de Apache Airflow, hacer análisis exploratorios y generar informes sobre los datos.
Actualmente utilizamos Snowflake como base de datos principal. Ingerimos alrededor de 300 GB de datos anónimos de localización de teléfonos móviles de nuestros proveedores de datos, calculamos las principales métricas con Apache Airflow y, después, ponemos los conjuntos de datos resultantes en Snowflake.
Datalore nos permite trabajar con nuestros datos de una forma distinta a como lo hacíamos con Airflow, con opciones para depurar los resultados del pipeline, probar los webhooks y visualizar rápidamente los datos con funciones de generación automática de gráficos. Al utilizar el conector nativo de Snowflake en Datalore y los programáticos en Pandas, ahorramos tiempo al trabajar con notebooks compartidos.
También nos gusta mucho la función de publicación de informes, que nos permite sensibilizar al público sobre nuestro trabajo. Podemos generar un informe rápido, publicarlo y dar una URL, sin ofrecer a los lectores la posibilidad de descargar los datos.
Es muy fácil utilizar las celdas SQL nativas y la conexión Snowflake cuando se está empezando a montar la consulta. Si tenemos que ejecutar un bucle en SQL, usamos Pandas y copiamos-pegamos las cadenas SQL allí.
Alguien importa los datos utilizando celdas SQL y prepara el marco de datos resultante. A continuación, otros miembros del equipo comienzan a investigar los datos en el mismo notebook, elaboran informes sobre la calidad de los datos y, después, comparamos los resultados con las ejecuciones anteriores.
Datalore nos permite crear rápidamente prototipos y compartir los resultados con cualquier persona del equipo. Es una herramienta que ha cambiado la colaboración en toda nuestra organización.
Todavía no hemos tenido tiempo de configurar la autenticación centralizada en Datalore, pero nos pondremos con ello en los próximos meses. También queremos trabajar en el escalado horizontal en nuestro grupo de Kubernetes (K8s) para ahorrar algo de tiempo de computación.
Mientras, seguimos preparándonos de forma activa para las elecciones de este otoño, y Datalore será una parte integral de nuestros preparativos.
Netanel Golani, experto en detección de amenazas de Hunters
Solo ha pasado un mes desde que el equipo de ciencia de datos de Hunters empezase a utilizar Datalore, y ya hemos visto mejoras de productividad y usabilidad en nuestro flujo de trabajo diario, especialmente al trabajar con varias fuentes de datos de clientes.
Surya Rastogi, científico de datos senior, Chainalysis
Uno de nuestros mayores retos es que el espacio blockchain se está expandiendo rápidamente y siempre hay nuevos datos que adquirir y analizar. Como empresa tenemos muchas funciones de adquisición y procesamiento de datos, y esperamos que sigan creciendo.
Moreno Raimondo Vendra, ingeniero sénior de Machine Learning, TrueLayer
Datalore permitió a nuestro equipo acceder de forma ergonómica a nuestros datos cumpliendo al mismo tiempo los requisitos de seguridad, lo que supuso un cambio radical para nosotros. Como resultado, pudimos colaborar mucho más fácilmente tanto dentro de nuestro equipo de Machine Learning como con las partes interesadas.