Сфера деятельности: Исследования

Используемые продукты JetBrains: Datalore

Число сотрудников: 15

Страна: США

Сenter for New Data

Center for New Data сотрудничает с общественными группами, технологическими компаниями и учеными с целью способствовать развитию демократии, внедряя новаторские методики, разработанные на основе анализа больших данных.

Как в Center for New Data обрабатывают 300 ГБ данных ежедневно с помощью Datalore и Airflow

Об организации

Расскажите о себе.

Здравствуйте! Меня зовут Чад Розенберг. Я руководитель технологического отдела в Center for New Data (newdata.org). Я управляю инфраструктурными операциями и руковожу национальной группой волонтеров: дата-инженеров, специалистов по статистике и анализу данных.

Чем занимается Center for New Data?

Наша флагманская программа направлена на измерение доступа населения США к голосованию на выборах. Мы анализируем время ожидания миллионов избирателей на десятках тысяч избирательных участков по всей стране, соотносим его с географией и социально-экономическим статусом людей и демонстрируем, что в разных местах уровень доступа к голосованию различается. В рамках другой нашей программы мы находим сообщества, представляющие интерес, используя данные о мобильности, а не только концептуальные подходы. Мы ищем решения, которые помогут лучше организовать такие зачастую маргинализированные сообщества в избирательные округа, уменьшить социальную поляризацию и построить более здоровую демократию.


Какие проблемы предстояло решить

Что заставило вас искать решение, подобное Datalore? С какими проблемами вы столкнулись?

Предыдущее решение для работы с ноутбуками было сложно поддерживать. Там были проблемы с зависимостями Kubernetes, которые было трудно решить. Кроме того, было непросто переходить с одной версии на другую. Мы волонтерская организация и дорожим временем, которое тратится на DevOps, поэтому очень здорово, что Datalore — это готовое решение, которое мы смогли легко настроить в нашем кластере Kubernetes на AWS. Нам нужно, чтобы все просто работало, а наличие поддержки также упрощает работу.


«Datalore позволяет нам быстро прототипировать и делиться результатами со всей командой. Этот инструмент в корне изменил взаимодействие в нашей организации»,

— Чад Розенберг, руководитель технологического отдела, Center for New Data


Опыт использования Datalore

Кто пользуется Datalore в вашей команде?

У нас около 15 пользователей Datalore, и большая часть команды работает над качеством данных. Команда использует Datalore для корректировки результатов планировщика Apache Airflow, проведения разведочного анализа и составления отчетов.

С каким типом данных вы работаете?

Сейчас в качестве основной базы данных мы используем Snowflake. Мы получаем около 300 ГБ анонимизированных данных о геолокации мобильных телефонов от наших поставщиков данных, рассчитываем основные метрики с помощью Apache Airflow, а затем помещаем полученные наборы данных в Snowflake.

В чем для вас заключаются основные преимущества Datalore?

Datalore дает нам возможности для работы с данными, которых нет в Airflow, такие как отладка результатов пайплайна, опробование вебхуков и быстрая визуализация данных с помощью функций автоматического построения графиков. Возможность использовать нативный коннектор Snowflake в Datalore, а также программный в pandas, определенно экономит время при совместной работе над ноутбуками.

Еще нам нравится функция публикации отчетов. Она позволяет нам показывать результаты нашей работы более широкой аудитории. Мы можем быстро сгенерировать отчет, опубликовать его и сказать: «Вот ссылка», но скачать данные у читателей не получится.

Когда вы используете нативное подключение к Snowflake и ячейки SQL? А когда обращаетесь к базе данных с помощью Python?

Очень просто использовать нативные ячейки SQL и соединение Snowflake, когда начинаешь собирать запрос. Если нужно выполнить цикл на SQL, мы используем pandas и копируем туда строки на SQL.

Что представляет собой совместная работа в вашей команде?

Кто-то импортирует данные с помощью ячеек SQL и подготавливает полученный датафрейм. Затем другие члены команды начинают исследовать данные в том же ноутбуке, готовят отчеты о качестве данных, и мы сравниваем результаты с предыдущими прогонами.

Вы заметили улучшения в процессах работы вашей команды?

Datalore позволяет нам быстро прототипировать и делиться результатами со всей командой. Этот инструмент в корне изменил взаимодействие в нашей организации.

Что дальше

Мы еще не успели настроить централизованную аутентификацию в Datalore, но будем работать над этим в ближайшие месяцы. Мы также планируем заняться горизонтальным масштабированием в нашем кластере Kubernetes (K8s), чтобы сэкономить время на вычислениях.

Между тем мы активно готовимся к промежуточным выборам этой осенью, и Datalore — неотъемлемая часть этой подготовки.

Контакты

Похожие истории клиентов

Hunters

Нетанель Голани, специалист Hunters по поиску угроз

Уже через месяц после того как команда Hunters, занимающаяся Data Science, начала использовать Datalore, мы увидели, что продуктивность повысилась, а работать стало удобнее, особенно при обработке многочисленных источников данных клиентов.

Chainalysis

Сурья Растоги, старший специалист по анализу данных, Chainalysis

Одна из главных сложностей заключается в том, что экосистема блокчейна быстро расширяется и постоянно появляются новые данные, которые нужно собирать и анализировать. У нас много задач, связанных со сбором и обработкой данных, и мы ожидаем, что их будет становиться только больше.

TrueLayer

Морено Раймондо Вендра, старший специалист по машинному обучению, TrueLayer

Datalore перевернул нашу жизнь, обеспечив удобный доступ к нашим данным с соблюдением всех требований безопасности. В результате нам стало гораздо удобнее не только работать внутри отдела машинного обучения, но и делиться информацией с другими.

Другие истории клиентов