こんにちは。The Center for New Data(newdata.org)でテクノロジー責任者を務める Chad Rosenberg と申します。インフラストラクチャ運営を担当し、New Data のデータサイエンティスト、エンジニア、および統計専門家で構成される国内ボランティア団体を管理しています。
ビッグデータを使用して米国の投票アクセスを測定する主力プログラムが挙げられます。このプログラムでは全国数万か所に設けられた投票所で数百万人の投票者の待ち時間を分析し、それを地域および個人の社会経済的地位と対応づけて、場所ごとに投票へのアクセスレベルが異なることを示しています。別のプログラムでは単なる概念的なアプローチではなく、モビリティデータを使用して関心ベースのコミュニティを見つけています。社会から疎外されがちなこのようなコミュニティを投票区にうまく系統立てる方法を見つけることで二極化を減らし、より健全な民主主義を構築する支えとしています。
以前に使用していたノートブックソリューションは、管理が非常に困難でした。解決しにくい Kubernetes 依存関係の課題がいくつかあったのです。バージョン間の移行も非常に困難でした。ボランティア団体にとって DevOps の時間は非常に貴重ですので、Datalore がターンキーソリューションであり、AWS の Kubernetes クラスターに簡単にセットアップできるという点が非常に気に入りました。すぐに作業できる環境が必要ですし、サポートが含まれていることにも助かっています。
「Datalore では迅速にプロトタイプを作成し、結果をチーム全員と共有することが可能です。組織全体でのコラボレーションを大きく変えてくれました」
— Chad Rosenberg、The Center for New Data テクノロジー責任者
Datalore は約 15 人が使用しており、チームのほとんどがデータ品質に携わっています。データ品質チームは Datalore を使用して Apache Airflow スケジュールの結果のトラブルシューティングや、探索的解析、データに関するレポート作成を行っています。
現在は Snowflake を主なデータベースとして使用しています。約 300 GB の匿名化された携帯電話の位置情報データをデータプロバイダーから取得し、Apache Airflow で主なメトリクスを計算した結果のデータセットを Snowflake で使用しています。
Datalore を使えば、パイプラインの結果をデバッグし、ウェブフックを試し、自動プロット機能で素早くデータを可視化するなど、Airflow では不可能な方法でデータを処理できます。Datalore でネイティブの Snowflake コネクターや Pandas を使ってプログラムで作成したコネクターを使用できるため、共有ノートブックでの作業時間を確実に節約できています。
レポートの公開機能もとても気に入っています。この機能を使うと、自分たちの作業結果をより広範な人に見せることができます。簡易レポートをまとめて公開するだけで、閲覧者にデータをダウンロードさせることなく「この URL を参照してください」と言えば済むからです。
クエリを組み立て始める場合にネイティブ SQL セルと Snowflake 接続を使用していますが、非常に簡単です。SQL でループを実行する必要がある場合は、Pandas を使って SQL 文字列をコピーしてそこに貼り付けています。
まずはチームメンバーの 1 人が SQL セルを使ってデータをインポートし、結果のデータフレームを準備しています。その後は他のチームメンバーが同じノートブックでデータの調査を開始し、データ品質レポートを生成してからその結果と前回の実行を比較しています。
Datalore では迅速にプロトタイプを作成し、結果をチーム全員と共有することが可能です。組織全体でのコラボレーションを大きく変えてくれました。
Datalore で認証の一元化を構成する時間をまだ持てていませんが、数か月以内には取り掛かる予定です。また、計算時間を節約できるように、Kubernetes(K8s)クラスターでの水平スケーリングにも取り組みたいと考えています。
当面はこの秋の中間選挙に向けて積極的に準備を進めていきます。この準備には Datalore が欠かせなくなるでしょう。
Netanel Golani、Hunters 脅威ハンティングエキスパート
Hunters のデータサイエンスチームが Datalore を使い始めてから 1 か月しか経っていませんが、多数の顧客データソースを処理する場合など、すでに日常のワークフローで生産性とユーザビリティが改善されています。
Surya Rastogi、Chainalysis シニアスタッフデータサイエンティスト
最大の課題は、ブロックチェーンの領域が急速に拡大しているため、取得して分析する必要のある新しいデータが常に存在することです。 弊社では、データ取り込みと処理の関数が大量にあり、今後も増加し続けると見込んでいます。
Moreno Raimondo Vendra、TrueLayer シニア機械学習エンジニア
Datalore によってセキュリティ要件を満たしながら人間工学的にデータにアクセスできるようになったため、弊社にとってはゲームチェンジャーとなりました。 そのため、機械学習チーム内だけでなく関係者とのコラボレーションもはるかに簡単に行えるようになりました。