Сфера деятельности: Финансовые технологии
Используемые продукты JetBrains: Datalore
Число сотрудников: 250-500
Страна: Великобритания
TrueLayer — мировая платформа открытого банкинга, которая упрощает финансовые операции. Компании самого разного размера — от стартапов до крупных корпораций — используют TrueLayer для осуществления платежей, получения финансовой информации и подключения клиентов в Великобритании и других странах Европы. Компания TrueLayer была основана в 2016 году и успела завоевать доверие миллионов потребителей и компаний во всем мире. Она ставит перед собой задачу создать финансовую систему, удобную всем.
Меня зовут Морено Раймондо Вендра, я старший специалист TrueLayer по машинному обучению. Наш отдел машинного обучения помогает другим подразделениям компании, которым необходимо обрабатывать большие объемы данных, анализировать их и создавать на их основе модели машинного обучения. Чаще всего мы работаем по основным сценариям использования продуктов TrueLayer, но иногда участвуем и в исследовательских проектах.
TrueLayer — финтех-компания, поставщик услуг открытого банкинга, поэтому мы в основном работаем с финансовыми данными. Мы предоставляем клиентам доступ к данным открытого банкинга с соблюдением требований GDPR. Один из проектов, в которых участвует моя команда, — добавление к транзакциям пользователей дополнительной информации о продавцах.
Работа с финансовыми данными — непростая задача, поскольку нельзя просто получить доступ к производственным БД или озеру данных, скачать необходимые данные и начать их обрабатывать. Нужно, во-первых, обеспечить безопасный доступ к данным, а во-вторых, подготовить информацию так, чтобы ею было удобно делиться.
Раньше у нас была отдельная облачная машина AWS EC2, но подключиться к ней было сложно из-за многочисленных VPN и временных личных учетных данных, срок действия которых был очень небольшим. Кроме того, было сложно увеличить объем инстанса, чтобы обрабатывать более крупные объемы данных. Наконец, новым членам команды было сложно разобраться с этой системой.
«Datalore перевернул нашу жизнь, обеспечив удобный доступ к нашим данным с соблюдением всех требований безопасности. В результате нам стало гораздо удобнее не только работать внутри команды, но и делиться информацией с другими».
— Морено Раймондо Вендра, старший специалист по машинному обучению, TrueLayer
В отделе машинного обучения нас трое, плюс в компании еще два человека, активно использующих Datalore.
Обычно мы работаем с данными, которые создаются в операционных БД, но при этом мы сохраняем часть этих данных в озере на AWS S3. Основной тип данных, с которыми мы работаем, — обезличенные метаданные о транзакциях через открытый банкинг. Обычно для доступа к ним мы используем Python-клиент для S3.
Кроме того, мы работаем с данными, созданными нашими собственными сервисами, например журналами и метриками. С помощью Datalore нам удалось устранить сложные ошибки, которые требовали получения сотен гигабайтов данных, выявить закономерности, визуализировать данные и поделиться полученной информацией.
Обычно мы используем pandas, а еще часто пользуемся вкладкой Visualize — она очень удобная и интуитивно понятная. Благодаря этому исследовать данные гораздо удобнее, и времени тратится меньше.
Кроме того, мы работаем над этим совместно: один человек извлекает данные и создает ноутбук для совместной работы с ними, позже другой продолжает начатую работу. Из каждого ноутбука мы стараемся сделать отчет. После завершения анализа мы обязательно добавляем заключение и описываем полученную информацию, чтобы было понятно, какая работа проделана.
Datalore очень помогает нам в таком описании данных: они все собраны в одном месте, где можно выполнять сложную обработку с помощью Python (анализ можно проводить на любую необходимую глубину), готовить визуализацию и экспортировать результаты в формат, удобный клиентам. И для всего этого нам не нужны разные инструменты! Мы можем создавать отчеты в формате PDF и статические отчеты и даже настроить их создание по расписанию с учетом меняющихся возможностей и метрик. Доступ к истории создания таких отчетов оказался нам очень полезен.
«Исследование данных и отчеты — очень удобный для нас сценарий работы. Кроме того, мы стали использовать Datalore для прототипирования и обучения моделей: оказалось, что удобный доступ к данным сокращает время, которые мы тратим на эксперименты».
Благодаря тому, что ноутбуки объединяются в рабочие пространства, удобно отслеживать, что делал каждый из членов команды по тому или иному проекту или теме. Разработчики эту задачу давно решили: у них есть Github, Gitlab и другие похожие платформы. А вот что касается Data Science и совместной работы над ноутбуками, тут все не так просто.
«Datalore очень упростил совместную работу. Теперь у нас есть место, где все рабочие данные хранятся в тщательно организованном виде».
Мы — отдел TrueLayer по машинному обучению, поэтому чаще всего мы вместе работаем над ноутбуком или занимаемся парным программированием.
Кроме того, мы используем PyCharm и плагины Code With Me для совместного написания кода. Нам нравится этот интерфейс и то, что процесс редактирования кода в реальном времени одинаков для разных инструментов. Например, когда мы запустили обучающий скрипт для модели машинного обучения, то могли совместно в реальном времени работать над скриптом, написанным на Python, в разделе Attached files. Мы просто вместе смотрели код, а не сидели в видеочате, и могли быстрее найти и исправить ошибки. Когда мы смогли организовать работу в рабочих пространствах, отслеживая ее историю, продуктивность команды повысилась.
Мы развернули серверы моделей в наших кластерах — по сути это Python API. Мы создаем ноутбук с информацией для обучения в Datalore, обучаем модель, создаем артефакт модели (архив) и разворачиваем ее в кластер. После этого с помощью PyCharm и Code With Me разрабатываются API сервера модели. Благодаря привычному интерфейсу, общему для разных инструментов JetBrains, этот процесс очень удобен для нашей команды.
Недавно наши разработчики и дата-инженеры очень заинтересовались тем как мы работаем: они хотят упростить доступ к результатам обработки данных. Сегодня многие специалисты знают, что такое Jupyter-ноутбук, но возможность быстрого подключения к данным с помощью Datalore очень облегчила бы разработчикам вход в Data Science.
Нетанель Голани, специалист Hunters по поиску угроз
Уже через месяц после того как команда Hunters, занимающаяся Data Science, начала использовать Datalore, мы увидели, что продуктивность повысилась, а работать стало удобнее, особенно при обработке многочисленных источников данных клиентов.
Чад Розенберг, руководитель технологического отдела, Center for New Data
Datalore дает нам возможности для работы с данными, которых нет в Airflow, такие как отладка результатов пайплайна, опробование вебхуков и быстрая визуализация данных с помощью функций автоматического построения графиков. Возможность использовать нативный коннектор Snowflake в Datalore, а также программный в pandas, определенно экономит время при совместной работе над ноутбуками.
Сурья Растоги, старший специалист по анализу данных, Chainalysis
Одна из главных сложностей заключается в том, что экосистема блокчейна быстро расширяется и постоянно появляются новые данные, которые нужно собирать и анализировать. У нас много задач, связанных со сбором и обработкой данных, и мы ожидаем, что их будет становиться только больше.