Сфера деятельности: Исследования
Используемые продукты JetBrains: Datalore
Число сотрудников: 15
Страна: США
Здравствуйте! Меня зовут Чад Розенберг. Я руководитель технологического отдела в Center for New Data (newdata.org). Я управляю инфраструктурными операциями и руковожу национальной группой волонтеров: дата-инженеров, специалистов по статистике и анализу данных.
Наша флагманская программа направлена на измерение доступа населения США к голосованию на выборах. Мы анализируем время ожидания миллионов избирателей на десятках тысяч избирательных участков по всей стране, соотносим его с географией и социально-экономическим статусом людей и демонстрируем, что в разных местах уровень доступа к голосованию различается. В рамках другой нашей программы мы находим сообщества, представляющие интерес, используя данные о мобильности, а не только концептуальные подходы. Мы ищем решения, которые помогут лучше организовать такие зачастую маргинализированные сообщества в избирательные округа, уменьшить социальную поляризацию и построить более здоровую демократию.
Предыдущее решение для работы с ноутбуками было сложно поддерживать. Там были проблемы с зависимостями Kubernetes, которые было трудно решить. Кроме того, было непросто переходить с одной версии на другую. Мы волонтерская организация и дорожим временем, которое тратится на DevOps, поэтому очень здорово, что Datalore — это готовое решение, которое мы смогли легко настроить в нашем кластере Kubernetes на AWS. Нам нужно, чтобы все просто работало, а наличие поддержки также упрощает работу.
«Datalore позволяет нам быстро прототипировать и делиться результатами со всей командой. Этот инструмент в корне изменил взаимодействие в нашей организации»,
— Чад Розенберг, руководитель технологического отдела, Center for New Data
У нас около 15 пользователей Datalore, и большая часть команды работает над качеством данных. Команда использует Datalore для корректировки результатов планировщика Apache Airflow, проведения разведочного анализа и составления отчетов.
Сейчас в качестве основной базы данных мы используем Snowflake. Мы получаем около 300 ГБ анонимизированных данных о геолокации мобильных телефонов от наших поставщиков данных, рассчитываем основные метрики с помощью Apache Airflow, а затем помещаем полученные наборы данных в Snowflake.
Datalore дает нам возможности для работы с данными, которых нет в Airflow, такие как отладка результатов пайплайна, опробование вебхуков и быстрая визуализация данных с помощью функций автоматического построения графиков. Возможность использовать нативный коннектор Snowflake в Datalore, а также программный в pandas, определенно экономит время при совместной работе над ноутбуками.
Еще нам нравится функция публикации отчетов. Она позволяет нам показывать результаты нашей работы более широкой аудитории. Мы можем быстро сгенерировать отчет, опубликовать его и сказать: «Вот ссылка», но скачать данные у читателей не получится.
Очень просто использовать нативные ячейки SQL и соединение Snowflake, когда начинаешь собирать запрос. Если нужно выполнить цикл на SQL, мы используем pandas и копируем туда строки на SQL.
Кто-то импортирует данные с помощью ячеек SQL и подготавливает полученный датафрейм. Затем другие члены команды начинают исследовать данные в том же ноутбуке, готовят отчеты о качестве данных, и мы сравниваем результаты с предыдущими прогонами.
Datalore позволяет нам быстро прототипировать и делиться результатами со всей командой. Этот инструмент в корне изменил взаимодействие в нашей организации.
Мы еще не успели настроить централизованную аутентификацию в Datalore, но будем работать над этим в ближайшие месяцы. Мы также планируем заняться горизонтальным масштабированием в нашем кластере Kubernetes (K8s), чтобы сэкономить время на вычислениях.
Между тем мы активно готовимся к промежуточным выборам этой осенью, и Datalore — неотъемлемая часть этой подготовки.
Нетанель Голани, специалист Hunters по поиску угроз
Уже через месяц после того как команда Hunters, занимающаяся Data Science, начала использовать Datalore, мы увидели, что продуктивность повысилась, а работать стало удобнее, особенно при обработке многочисленных источников данных клиентов.
Сурья Растоги, старший специалист по анализу данных, Chainalysis
Одна из главных сложностей заключается в том, что экосистема блокчейна быстро расширяется и постоянно появляются новые данные, которые нужно собирать и анализировать. У нас много задач, связанных со сбором и обработкой данных, и мы ожидаем, что их будет становиться только больше.
Морено Раймондо Вендра, старший специалист по машинному обучению, TrueLayer
Datalore перевернул нашу жизнь, обеспечив удобный доступ к нашим данным с соблюдением всех требований безопасности. В результате нам стало гораздо удобнее не только работать внутри отдела машинного обучения, но и делиться информацией с другими.