Сфера деятельности: Блокчейн
Используемые продукты JetBrains: Datalore
Число сотрудников: 500-1000
Страна: США
Компания Chainalysis проводит исследования и предоставляет данные, сервисы и ПО государственным и финансовым учреждениям, биржам, а также компаниям, занимающимся кибербезопасностью и страхованием в более чем 70 странах. На основе платформы Chainalysis были созданы инструменты для проведения расследований, управления рисками и надзора за нормативно-правовым соответствием, которые помогли раскрыть крупнейшие киберпреступления, а также безопасным образом расширить доступ к криптовалюте.
Меня зовут Сурья Растоги. В компании Chainalysis я работаю старшим специалистом по анализу данных. Я провожу много времени за блокчейн-анализом и созданием аналитических инструментов для разных команд Chainalysis. В данный момент я руковожу разработкой инструментов для исследований.
Компания Chainalysis проводит исследования и предоставляет данные, сервисы и ПО государственным и финансовым учреждениям, биржам, а также компаниям, занимающимся кибербезопасностью и страхованием в более чем 70 странах. На основе платформы Chainalysis были созданы инструменты для проведения расследований, управления рисками и надзора за нормативно-правовым соответствием, которые помогли раскрыть крупнейшие киберпреступления, а также безопасным образом расширить доступ к криптовалюте.
Одна из главных сложностей заключается в том, что экосистема блокчейна быстро расширяется и постоянно появляются новые данные, которые нужно собирать и анализировать. У нас много задач, связанных со сбором и обработкой данных, и мы ожидаем, что их будет становиться только больше.
«Datalore предоставляет высокоуровневый интерфейс для изучения данных: наши специалисты могут работать с разными источниками данных и совмещать их, чтобы получить полезную информацию»,
— Сурья Растоги, старший специалист по анализу данных, Chainalysis
Доступ к Datalore есть у 35 сотрудников Chainalysis. Команда, занимающаяся исследованиями, разработкой и глубокими технологиями, отвечает за установку Datalore и доступ сотрудников к другим инструментам для Data Science. Специалисты по продуктовой аналитике занимаются анализом данных, позволяющим улучшить продукт, а также аудитом для выявления исключений и потенциальных сложностей. C появлением возможности запуска по расписанию Datalore стали активно пользоваться дата-инженеры: раньше им приходилось писать DAG-и Airflow, теперь же часть рабочих сценариев выполняется по расписанию.
Datalore помог нам оптимизировать адаптацию новых сотрудников. Раньше документация была разбросана по разным Git-репозиториям и мы пользовались страницами autodoc. С Datalore мы можем просто выдать новичкам стартовый ноутбук, который они могут скопировать и использовать для начала работы. Кроме того, поскольку в статические отчеты можно добавлять ячейки кода, мы можем легко создавать документационные отчеты, фрагменты которых можно копировать.
«Datalore упростил обучение новых сотрудников и документирование рабочих процессов».
Поначалу мы думали, что для обучения сотрудников будем активно пользоваться возможностями для совместной работы, но, как ни странно, мы этого не делаем. Зато мы используем эти возможности для групповых звонков — своего рода моб-программирование. Правда в большинстве случаев код пишет кто-то один.
У нас есть бинарные данные, размещенные в хранилищах типа S3 и minIO. Также мы используем S3 в качестве озера данных над хранилищами данных и лейкхаусами. У нас есть много классических реляционных баз данных, таких как Postgres. Изначально в Datalore не было возможности интеграции баз данных — она стала отличным дополнением инструмента, и по мере ее развития многие SQL-аналитики Chainalysis начали пользоваться Datalore, так как он предлагал уже знакомые возможности DataGrip.
Изначально Datalore не был установлен в AWS. Мы выполнили миграцию, чтобы получить доступ к ряду сервисов, которыми начали пользоваться до этого, например Athena. Мы легко подключили все наши источники данных и множество хранилищ AWS.
Нам нравится пользоваться отчетами. Добавляя в рабочие процессы аннотации Markdown, мы можем публиковать отчеты, которые показывают использованные источники данных и действия, выполненные над ними.
Кроме того, благодаря Datalore мы начали сохранять результаты работы в аналитические базы данных. Раньше мы использовали для этого Airflow, но перешли на Datalore, как только в нем появилась возможность запуска по расписанию. Теперь вместо DAG мы используем ноутбуки Datalore, которые запускаются раз в час. Поначалу мы в основном использовали Datalore для просмотра источников данных. С появлением возможности запуска по расписанию мы также начали использовать его для заполнения части баз данных. Это упростило рабочий процесс: нам больше не приходится переносить код в DAG Airflow.
«Запуск по расписанию стал моей любимой функцией».
И, наконец, есть исследователи и аналитики, которые выполняют анализ, специфичный для конкретной области. Результаты их работы публикуются при помощи интерактивных отчетов в виде списка задач. Если потребуется провести похожий анализ, отчет можно будет переиспользовать — достаточно поделиться ссылкой.
В главной исследовательской команде есть проектные группы. Во время звонков их участники открывают в Datalore общий ноутбук и работают в нем вместе. Как я уже говорил, возможность запуска по расписанию позволила инженерам данных заполнять базы данных — таким образом они начали сотрудничать с аналитиками.
Во-первых, мы продолжаем собирать воедино нашу инфраструктуру для Data Science. Благодаря Datalore нам больше не нужны такие инструменты, как nbviewer (для демонстрации ноутбуков) и Google Colab (для совместной работы над ноутбуками). С появлением возможности запуска по расписанию мы также начали подтягивать в Datalore некоторые сценарии работы из Airflow.
Во-вторых, для первого знакомства с Datalore я собрал всех, кто пользовался Python для работы с данными, а также аналитиков, использующих SQL. Вероятно, в будущем мы расширим установку Datalore, чтобы охватить сценарии бизнес-аналитики (например, настроить панели индикаторов).
Кроме того, мы занялись интерфейсами для анализа данных. Мы создали внутренний инструмент со ссылками на ключевые интерактивные отчеты и другие дэшборды, встроили его в Datalore и теперь можем легко переходить с одной страницы на другую.
Нетанель Голани, специалист Hunters по поиску угроз
Уже через месяц после того как команда Hunters, занимающаяся Data Science, начала использовать Datalore, мы увидели, что продуктивность повысилась, а работать стало удобнее, особенно при обработке многочисленных источников данных клиентов.
Чад Розенберг, руководитель технологического отдела, Center for New Data
Datalore дает нам возможности для работы с данными, которых нет в Airflow, такие как отладка результатов пайплайна, опробование вебхуков и быстрая визуализация данных с помощью функций автоматического построения графиков. Возможность использовать нативный коннектор Snowflake в Datalore, а также программный в pandas, определенно экономит время при совместной работе над ноутбуками.
Морено Раймондо Вендра, старший специалист по машинному обучению, TrueLayer
Datalore перевернул нашу жизнь, обеспечив удобный доступ к нашим данным с соблюдением всех требований безопасности. В результате нам стало гораздо удобнее не только работать внутри отдела машинного обучения, но и делиться информацией с другими.