こんにちは。Chainalysis でシニアスタッフデータサイエンティストを務める Surya Rastogi と申します。私はさまざまなブロックチェーンデータの解析と、社内の多数のチームへの解析ツールの提供を中心に業務を行っています。現在は研究ツールの開発をリードしています。
Chainalysis は 70 か国以上の政府機関、交換取引所、金融機関、および保険とサイバーセキュリティの企業にデータ、ソフトウェア、サービス、および研究を提供しています。当社のデータプラットフォームは世界で最も注目を浴びたサイバー犯罪事件のいくつかを解決するために使用されてきた調査、コンプライアンス、リスク管理ツールを強化し、消費者による暗号通貨へのアクセスを安全に拡大しています。
最大の課題の 1 つとしては、ブロックチェーンの分野が急速に拡大しており、新しいデータを常に取得し、解析しなければならないということが挙げられます。当社にはデータの取得と処理に関わる職務が多数あり、これらはさらに増大すると見込んでいます。
「Datalore はすべてのデータに対してトップレベルのインターフェースを提供しています。データサイエンティストが異なるデータソースを個々に調べ、それらを組み合わせてインサイトを引き出せるようになっているのです」
— Surya Rastogi、Chainalysis シニアスタッフデータサイエンティスト
Chainalysis 全体で Datalore にアクセスできる人は 35 人います。R&D とディープテックに専念しているリサーチ部門は Datalore のインストール環境を管理し、データサイエンスに携わる他の部門にアクセスを提供しています。当社には製品に送出するデータを分析してそのデータを監査し、潜在的な外れ値や複雑さがないかを確認するプロダクトデータサイエンティストがいます。最近になってスケジュール設定機能が導入されて以来、データサイエンスエンジニアはこれまで以上に Datalore を使用するようになりました。従来ならこのようなエンジニアは Airflow DAG を記述していたかもしれませんが、当社では一部のユースケースでスケジュール実行を使用するように移行しているところです。
Datalore を採用してからはオンボーディングプロセスが成熟し、合理化されました。以前はドキュメントが Git リポジトリに散在しており、Autodoc ウェブページを使用していました。しかし、今では Datalore を使って新メンバーに「Getting Started」ノートブックを提供し、各自がそれをコピーして基本を学習できるようになりました。また、静的レポートにコードセルを含められるため、アナリストがサンプルのスニペットをコピーして貼り付けられるドキュメントレポートを簡単に作成できています。
「Datalore はオンボーディングの摩擦を緩和し、ワークフローを文書化するのに大いに役立っています」
Datalore を導入した当初は新メンバーのオンボーディングにリアルタイムのコラボレーション機能をたくさん使用すると思っていましたが、どういうわけか使用していません。ただし、参加者が複数名の電話会議では、リアルタイムコラボレーションを使用して効果的にモブプログラミングを行っています。それでも多くの場合は、特定の 1 人の担当者がコードを操作しています。
S3 や minIO などのストアに置かれたバイナリ「スクラッチ」データがあり、S3 はデータウェアハウスとレイクハウスの上流のデータレイクレイヤーとしても利用しています。また、Postgres といった古典的な SQL データベースも多数あります。データベース統合は当初は機能として存在していませんでしたが、今では非常に便利な Datalore の追加機能になっています。この機能の開発が進むにつれて多くの SQL アナリストが依存していた機能に DataGrip からアクセスできるようになったため、Datalore をさらに活用できるようになりました。
当初、Datalore は AWS にインストールされていませんでしたが、すでに利用していた Athena などのいくつかのサービスを活用するために AWS に移行しました。それ以来、すべてのデータソースやさらに多くの AWS ストアをとても簡単に追加できています。
作業結果を共有する際は、主にレポート機能を好んで利用しています。マークダウンでワークフローに注釈を追加できるため、データソースと一定の結果を達成するために適用された変換を説明したレポートを公開することができます。
また、分析データベースへの作業結果の入力にも Datalore を使用し始めました。従来はこのようなユースケースに Airflow を使用していましたが、スケジュール設定が追加されてからは Datalore を代わりに使用できるようになりました。一部のデータベース入力には DAG を使用していましたが、それを毎時間実行される Datalore ノートブックに置き換えています。当初は Datalore を主にデータソースの読み取り専用ツールとして使用していましたが、スケジュール設定が追加されてからは、純粋に Datalore を介してデータベースに入力するようになりました。このワークフローのほうが調査を始めて Airflow 用にコードを DAG に移行するよりも簡単なのです。
「個人的にはスケジュール設定がお気に入りの新機能です」
最後になりますが、この分野固有の分析を実行する調査員とアナリストがいます。彼らの作業は、同僚向けに対話型レポートを公開する形で調査用の分析「手順書」として共有されています。似たような分析が必要になった場合は、リンクを共有するだけでレポートを再利用できています。
中心的な研究チームには、プロジェクトごとのグループがあります。これらのグループは会議中に全員が Datalore で共有ノートブックを開き、一緒にその内容を確認しています。先ほども述べたように、最近ではデータエンジニアがスケジュール実行を利用してデータを入力し、データサイエンティストと共同で作業し始めています。
まず、一部のデータサイエンスインフラストラクチャを引き続き統合していく意向です。Datalore によって、(ノートブックを公開するための)nbviewer のようなツールや(ノートブックで共同作業するための)Google Colab が不要になりました。今ではスケジュール設定機能も備わったため、一部の Airflow ユースケースを Datalore に統合し始めています。
さらに、Chainalysis で Datalore を導入した当初は Python をデータサイエンスに使用する人と SQL 中心のアナリストをまとめただけであったため、今後はインストールを拡大し、ビジネスインテリジェンスのユースケース(ビジネスダッシュボードなど)も処理できるようになればと思っています。
最後に重要なことですが、データサイエンス向けの UI に目を向け、最も重要な対話型レポートやその他のダッシュボードへのリンクを伴う内部ツールを構築しました。Datalore 内にこれを組み込み、さまざまなデータサイエンスフロントエンドの間にナビゲーション iframe を作成することができました。
Netanel Golani、Hunters 脅威ハンティングエキスパート
Hunters のデータサイエンスチームが Datalore を使い始めてから 1 か月しか経っていませんが、多数の顧客データソースを処理する場合など、すでに日常のワークフローで生産性とユーザビリティが改善されています。
Chad Rosenberg、The Center for New Data テクノロジー責任者
Datalore では、パイプラインの結果のデバッグ、ウェブフックの試用、自動プロット作成機能によるデータの迅速な可視化など、Airflow では実現できないデータ処理を行えます。 Datalore でネイティブの Snowflake コネクターや pandas によるコネクタープログラムを使用できるため、共有ノートブックでの作業時間が確実に節約されています。
Moreno Raimondo Vendra、TrueLayer シニア機械学習エンジニア
Datalore によってセキュリティ要件を満たしながら人間工学的にデータにアクセスできるようになったため、弊社にとってはゲームチェンジャーとなりました。 そのため、機械学習チーム内だけでなく関係者とのコラボレーションもはるかに簡単に行えるようになりました。