Сфера деятельности: Блокчейн

Используемые продукты JetBrains: Datalore

Число сотрудников: 500-1000

Страна: США

Chainalysis

Компания Chainalysis проводит исследования и предоставляет данные, сервисы и ПО государственным и финансовым учреждениям, биржам, а также компаниям, занимающимся кибербезопасностью и страхованием в более чем 70 странах. На основе платформы Chainalysis были созданы инструменты для проведения расследований, управления рисками и надзора за нормативно-правовым соответствием, которые помогли раскрыть крупнейшие киберпреступления, а также безопасным образом расширить доступ к криптовалюте.

Как Chainalysis использует Datalore для блокчейн-анализа

О компании

Расскажите о себе.

Меня зовут Сурья Растоги. В компании Chainalysis я работаю старшим специалистом по анализу данных. Я провожу много времени за блокчейн-анализом и созданием аналитических инструментов для разных команд Chainalysis. В данный момент я руковожу разработкой инструментов для исследований.

Чем занимается Chainalysis?

Компания Chainalysis проводит исследования и предоставляет данные, сервисы и ПО государственным и финансовым учреждениям, биржам, а также компаниям, занимающимся кибербезопасностью и страхованием в более чем 70 странах. На основе платформы Chainalysis были созданы инструменты для проведения расследований, управления рисками и надзора за нормативно-правовым соответствием, которые помогли раскрыть крупнейшие киберпреступления, а также безопасным образом расширить доступ к криптовалюте.


Какие проблемы предстояло решить

Что заставило вас искать решение, подобное Datalore? С какими проблемами вы столкнулись?

Одна из главных сложностей заключается в том, что экосистема блокчейна быстро расширяется и постоянно появляются новые данные, которые нужно собирать и анализировать. У нас много задач, связанных со сбором и обработкой данных, и мы ожидаем, что их будет становиться только больше.


«Datalore предоставляет высокоуровневый интерфейс для изучения данных: наши специалисты могут работать с разными источниками данных и совмещать их, чтобы получить полезную информацию»,

— Сурья Растоги, старший специалист по анализу данных, Chainalysis


Опыт использования Datalore

Кто пользуется Datalore в вашей команде?

Доступ к Datalore есть у 35 сотрудников Chainalysis. Команда, занимающаяся исследованиями, разработкой и глубокими технологиями, отвечает за установку Datalore и доступ сотрудников к другим инструментам для Data Science. Специалисты по продуктовой аналитике занимаются анализом данных, позволяющим улучшить продукт, а также аудитом для выявления исключений и потенциальных сложностей. C появлением возможности запуска по расписанию Datalore стали активно пользоваться дата-инженеры: раньше им приходилось писать DAG-и Airflow, теперь же часть рабочих сценариев выполняется по расписанию.

Ваша команда сильно выросла за последний год. Изменился ли процесс обучения новых сотрудников с переходом на Datalore?

Datalore помог нам оптимизировать адаптацию новых сотрудников. Раньше документация была разбросана по разным Git-репозиториям и мы пользовались страницами autodoc. С Datalore мы можем просто выдать новичкам стартовый ноутбук, который они могут скопировать и использовать для начала работы. Кроме того, поскольку в статические отчеты можно добавлять ячейки кода, мы можем легко создавать документационные отчеты, фрагменты которых можно копировать.


«Datalore упростил обучение новых сотрудников и документирование рабочих процессов».


Поначалу мы думали, что для обучения сотрудников будем активно пользоваться возможностями для совместной работы, но, как ни странно, мы этого не делаем. Зато мы используем эти возможности для групповых звонков — своего рода моб-программирование. Правда в большинстве случаев код пишет кто-то один.

С каким типом данных вы работаете?

У нас есть бинарные данные, размещенные в хранилищах типа S3 и minIO. Также мы используем S3 в качестве озера данных над хранилищами данных и лейкхаусами. У нас есть много классических реляционных баз данных, таких как Postgres. Изначально в Datalore не было возможности интеграции баз данных — она стала отличным дополнением инструмента, и по мере ее развития многие SQL-аналитики Chainalysis начали пользоваться Datalore, так как он предлагал уже знакомые возможности DataGrip.

Изначально Datalore не был установлен в AWS. Мы выполнили миграцию, чтобы получить доступ к ряду сервисов, которыми начали пользоваться до этого, например Athena. Мы легко подключили все наши источники данных и множество хранилищ AWS.

Как вы делитесь результатами работы?

Нам нравится пользоваться отчетами. Добавляя в рабочие процессы аннотации Markdown, мы можем публиковать отчеты, которые показывают использованные источники данных и действия, выполненные над ними.

Кроме того, благодаря Datalore мы начали сохранять результаты работы в аналитические базы данных. Раньше мы использовали для этого Airflow, но перешли на Datalore, как только в нем появилась возможность запуска по расписанию. Теперь вместо DAG мы используем ноутбуки Datalore, которые запускаются раз в час. Поначалу мы в основном использовали Datalore для просмотра источников данных. С появлением возможности запуска по расписанию мы также начали использовать его для заполнения части баз данных. Это упростило рабочий процесс: нам больше не приходится переносить код в DAG Airflow.


«Запуск по расписанию стал моей любимой функцией».


И, наконец, есть исследователи и аналитики, которые выполняют анализ, специфичный для конкретной области. Результаты их работы публикуются при помощи интерактивных отчетов в виде списка задач. Если потребуется провести похожий анализ, отчет можно будет переиспользовать — достаточно поделиться ссылкой.

Что представляет собой совместная работа в вашей команде?

В главной исследовательской команде есть проектные группы. Во время звонков их участники открывают в Datalore общий ноутбук и работают в нем вместе. Как я уже говорил, возможность запуска по расписанию позволила инженерам данных заполнять базы данных — таким образом они начали сотрудничать с аналитиками.

Что дальше

Во-первых, мы продолжаем собирать воедино нашу инфраструктуру для Data Science. Благодаря Datalore нам больше не нужны такие инструменты, как nbviewer (для демонстрации ноутбуков) и Google Colab (для совместной работы над ноутбуками). С появлением возможности запуска по расписанию мы также начали подтягивать в Datalore некоторые сценарии работы из Airflow.

Во-вторых, для первого знакомства с Datalore я собрал всех, кто пользовался Python для работы с данными, а также аналитиков, использующих SQL. Вероятно, в будущем мы расширим установку Datalore, чтобы охватить сценарии бизнес-аналитики (например, настроить панели индикаторов).

Кроме того, мы занялись интерфейсами для анализа данных. Мы создали внутренний инструмент со ссылками на ключевые интерактивные отчеты и другие дэшборды, встроили его в Datalore и теперь можем легко переходить с одной страницы на другую.

Контакты

Похожие истории клиентов

Hunters

Нетанель Голани, специалист Hunters по поиску угроз

Уже через месяц после того как команда Hunters, занимающаяся Data Science, начала использовать Datalore, мы увидели, что продуктивность повысилась, а работать стало удобнее, особенно при обработке многочисленных источников данных клиентов.

Сenter for New Data

Чад Розенберг, руководитель технологического отдела, Center for New Data

Datalore дает нам возможности для работы с данными, которых нет в Airflow, такие как отладка результатов пайплайна, опробование вебхуков и быстрая визуализация данных с помощью функций автоматического построения графиков. Возможность использовать нативный коннектор Snowflake в Datalore, а также программный в pandas, определенно экономит время при совместной работе над ноутбуками.

TrueLayer

Морено Раймондо Вендра, старший специалист по машинному обучению, TrueLayer

Datalore перевернул нашу жизнь, обеспечив удобный доступ к нашим данным с соблюдением всех требований безопасности. В результате нам стало гораздо удобнее не только работать внутри отдела машинного обучения, но и делиться информацией с другими.

Другие истории клиентов