Сфера деятельности: Финансовые технологии

Используемые продукты JetBrains: Datalore

Число сотрудников: 250-500

Страна: Великобритания

TrueLayer

TrueLayer — мировая платформа открытого банкинга, которая упрощает финансовые операции. Компании самого разного размера — от стартапов до крупных корпораций — используют TrueLayer для осуществления платежей, получения финансовой информации и подключения клиентов в Великобритании и других странах Европы. Компания TrueLayer была основана в 2016 году и успела завоевать доверие миллионов потребителей и компаний во всем мире. Она ставит перед собой задачу создать финансовую систему, удобную всем.

Как TrueLayer использует Datalore для безопасной совместной работы с данными

О компании TrueLayer

Расскажите о себе.

Меня зовут Морено Раймондо Вендра, я старший специалист TrueLayer по машинному обучению. Наш отдел машинного обучения помогает другим подразделениям компании, которым необходимо обрабатывать большие объемы данных, анализировать их и создавать на их основе модели машинного обучения. Чаще всего мы работаем по основным сценариям использования продуктов TrueLayer, но иногда участвуем и в исследовательских проектах.

Какими проектами занимается TrueLayer?

TrueLayer — финтех-компания, поставщик услуг открытого банкинга, поэтому мы в основном работаем с финансовыми данными. Мы предоставляем клиентам доступ к данным открытого банкинга с соблюдением требований GDPR. Один из проектов, в которых участвует моя команда, — добавление к транзакциям пользователей дополнительной информации о продавцах.


Какие проблемы предстояло решить

Что заставило вас искать решение, подобное Datalore? С какими проблемами вы столкнулись?

Работа с финансовыми данными — непростая задача, поскольку нельзя просто получить доступ к производственным БД или озеру данных, скачать необходимые данные и начать их обрабатывать. Нужно, во-первых, обеспечить безопасный доступ к данным, а во-вторых, подготовить информацию так, чтобы ею было удобно делиться.

Раньше у нас была отдельная облачная машина AWS EC2, но подключиться к ней было сложно из-за многочисленных VPN и временных личных учетных данных, срок действия которых был очень небольшим. Кроме того, было сложно увеличить объем инстанса, чтобы обрабатывать более крупные объемы данных. Наконец, новым членам команды было сложно разобраться с этой системой.


«Datalore перевернул нашу жизнь, обеспечив удобный доступ к нашим данным с соблюдением всех требований безопасности. В результате нам стало гораздо удобнее не только работать внутри команды, но и делиться информацией с другими».

— Морено Раймондо Вендра, старший специалист по машинному обучению, TrueLayer


Опыт использования Datalore

Кто пользуется Datalore в вашей команде?

В отделе машинного обучения нас трое, плюс в компании еще два человека, активно использующих Datalore.

С каким типом данных вы работаете?

Обычно мы работаем с данными, которые создаются в операционных БД, но при этом мы сохраняем часть этих данных в озере на AWS S3. Основной тип данных, с которыми мы работаем, — обезличенные метаданные о транзакциях через открытый банкинг. Обычно для доступа к ним мы используем Python-клиент для S3.

Кроме того, мы работаем с данными, созданными нашими собственными сервисами, например журналами и метриками. С помощью Datalore нам удалось устранить сложные ошибки, которые требовали получения сотен гигабайтов данных, выявить закономерности, визуализировать данные и поделиться полученной информацией.

Как вы исследуете данные в Datalore?

Обычно мы используем pandas, а еще часто пользуемся вкладкой Visualize — она очень удобная и интуитивно понятная. Благодаря этому исследовать данные гораздо удобнее, и времени тратится меньше.

Кроме того, мы работаем над этим совместно: один человек извлекает данные и создает ноутбук для совместной работы с ними, позже другой продолжает начатую работу. Из каждого ноутбука мы стараемся сделать отчет. После завершения анализа мы обязательно добавляем заключение и описываем полученную информацию, чтобы было понятно, какая работа проделана.

Datalore очень помогает нам в таком описании данных: они все собраны в одном месте, где можно выполнять сложную обработку с помощью Python (анализ можно проводить на любую необходимую глубину), готовить визуализацию и экспортировать результаты в формат, удобный клиентам. И для всего этого нам не нужны разные инструменты! Мы можем создавать отчеты в формате PDF и статические отчеты и даже настроить их создание по расписанию с учетом меняющихся возможностей и метрик. Доступ к истории создания таких отчетов оказался нам очень полезен.


«Исследование данных и отчеты — очень удобный для нас сценарий работы. Кроме того, мы стали использовать Datalore для прототипирования и обучения моделей: оказалось, что удобный доступ к данным сокращает время, которые мы тратим на эксперименты».


Благодаря тому, что ноутбуки объединяются в рабочие пространства, удобно отслеживать, что делал каждый из членов команды по тому или иному проекту или теме. Разработчики эту задачу давно решили: у них есть Github, Gitlab и другие похожие платформы. А вот что касается Data Science и совместной работы над ноутбуками, тут все не так просто.


«Datalore очень упростил совместную работу. Теперь у нас есть место, где все рабочие данные хранятся в тщательно организованном виде».


Что представляет собой совместная работа в вашей команде?

Мы — отдел TrueLayer по машинному обучению, поэтому чаще всего мы вместе работаем над ноутбуком или занимаемся парным программированием.

Кроме того, мы используем PyCharm и плагины Code With Me для совместного написания кода. Нам нравится этот интерфейс и то, что процесс редактирования кода в реальном времени одинаков для разных инструментов. Например, когда мы запустили обучающий скрипт для модели машинного обучения, то могли совместно в реальном времени работать над скриптом, написанным на Python, в разделе Attached files. Мы просто вместе смотрели код, а не сидели в видеочате, и могли быстрее найти и исправить ошибки. Когда мы смогли организовать работу в рабочих пространствах, отслеживая ее историю, продуктивность команды повысилась.

Как вы сочетаете PyCharm, Code With Me и Datalore в своих проектах?

Мы развернули серверы моделей в наших кластерах — по сути это Python API. Мы создаем ноутбук с информацией для обучения в Datalore, обучаем модель, создаем артефакт модели (архив) и разворачиваем ее в кластер. После этого с помощью PyCharm и Code With Me разрабатываются API сервера модели. Благодаря привычному интерфейсу, общему для разных инструментов JetBrains, этот процесс очень удобен для нашей команды.

Что дальше

Недавно наши разработчики и дата-инженеры очень заинтересовались тем как мы работаем: они хотят упростить доступ к результатам обработки данных. Сегодня многие специалисты знают, что такое Jupyter-ноутбук, но возможность быстрого подключения к данным с помощью Datalore очень облегчила бы разработчикам вход в Data Science.

Контакты

Похожие истории клиентов

Hunters

Нетанель Голани, специалист Hunters по поиску угроз

Уже через месяц после того как команда Hunters, занимающаяся Data Science, начала использовать Datalore, мы увидели, что продуктивность повысилась, а работать стало удобнее, особенно при обработке многочисленных источников данных клиентов.

Сenter for New Data

Чад Розенберг, руководитель технологического отдела, Center for New Data

Datalore дает нам возможности для работы с данными, которых нет в Airflow, такие как отладка результатов пайплайна, опробование вебхуков и быстрая визуализация данных с помощью функций автоматического построения графиков. Возможность использовать нативный коннектор Snowflake в Datalore, а также программный в pandas, определенно экономит время при совместной работе над ноутбуками.

Chainalysis

Сурья Растоги, старший специалист по анализу данных, Chainalysis

Одна из главных сложностей заключается в том, что экосистема блокчейна быстро расширяется и постоянно появляются новые данные, которые нужно собирать и анализировать. У нас много задач, связанных со сбором и обработкой данных, и мы ожидаем, что их будет становиться только больше.

Другие истории клиентов