業界: 研究・リサーチ

使用されている JetBrains 製品: Datalore

組織規模: 15

国: 米国

The Center for New Data

The Center for New Data は市民団体、テクノロジー企業、および大学教育機関と連携し、ビッグデータを全面的に活用した先駆的な手法を民主化運動に採り入れています。

The Center for New Data、1 日 300 GB のデータを Datalore と Airflow で処理

The Center for New Data について

自己紹介をお願いします。

こんにちは。The Center for New Data(newdata.org)でテクノロジー責任者を務める Chad Rosenberg と申します。インフラストラクチャ運営を担当し、New Data のデータサイエンティスト、エンジニア、および統計専門家で構成される国内ボランティア団体を管理しています。

New Data はどのようなプロジェクトに関わっていますか?

ビッグデータを使用して米国の投票アクセスを測定する主力プログラムが挙げられます。このプログラムでは全国数万か所に設けられた投票所で数百万人の投票者の待ち時間を分析し、それを地域および個人の社会経済的地位と対応づけて、場所ごとに投票へのアクセスレベルが異なることを示しています。別のプログラムでは単なる概念的なアプローチではなく、モビリティデータを使用して関心ベースのコミュニティを見つけています。社会から疎外されがちなこのようなコミュニティを投票区にうまく系統立てる方法を見つけることで二極化を減らし、より健全な民主主義を構築する支えとしています。


解決すべき課題

Datalore、もしくは別のソリューションを探したきっかけは何ですか?どのような課題に直面しましたか?

以前に使用していたノートブックソリューションは、管理が非常に困難でした。解決しにくい Kubernetes 依存関係の課題がいくつかあったのです。バージョン間の移行も非常に困難でした。ボランティア団体にとって DevOps の時間は非常に貴重ですので、Datalore がターンキーソリューションであり、AWS の Kubernetes クラスターに簡単にセットアップできるという点が非常に気に入りました。すぐに作業できる環境が必要ですし、サポートが含まれていることにも助かっています。


「Datalore では迅速にプロトタイプを作成し、結果をチーム全員と共有することが可能です。組織全体でのコラボレーションを大きく変えてくれました」

— Chad Rosenberg、The Center for New Data テクノロジー責任者


Datalore のエクスペリエンス

チームでは誰が Datalore を使用していますか?

Datalore は約 15 人が使用しており、チームのほとんどがデータ品質に携わっています。データ品質チームは Datalore を使用して Apache Airflow スケジュールの結果のトラブルシューティングや、探索的解析、データに関するレポート作成を行っています。

どのようなデータを扱っていますか?

現在は Snowflake を主なデータベースとして使用しています。約 300 GB の匿名化された携帯電話の位置情報データをデータプロバイダーから取得し、Apache Airflow で主なメトリクスを計算した結果のデータセットを Snowflake で使用しています。

Datalore を使用することに主にどのようなメリットがありますか?

Datalore を使えば、パイプラインの結果をデバッグし、ウェブフックを試し、自動プロット機能で素早くデータを可視化するなど、Airflow では不可能な方法でデータを処理できます。Datalore でネイティブの Snowflake コネクターや Pandas を使ってプログラムで作成したコネクターを使用できるため、共有ノートブックでの作業時間を確実に節約できています。

レポートの公開機能もとても気に入っています。この機能を使うと、自分たちの作業結果をより広範な人に見せることができます。簡易レポートをまとめて公開するだけで、閲覧者にデータをダウンロードさせることなく「この URL を参照してください」と言えば済むからです。

どのような場合にネイティブ Snowflake データベース接続と SQL セルを使用していますか?Python 経由でのデータベースアクセスはどうですか?

クエリを組み立て始める場合にネイティブ SQL セルと Snowflake 接続を使用していますが、非常に簡単です。SQL でループを実行する必要がある場合は、Pandas を使って SQL 文字列をコピーしてそこに貼り付けています。

チームではどのようにコラボレーションしていますか?

まずはチームメンバーの 1 人が SQL セルを使ってデータをインポートし、結果のデータフレームを準備しています。その後は他のチームメンバーが同じノートブックでデータの調査を開始し、データ品質レポートを生成してからその結果と前回の実行を比較しています。

データチームのワークフローに何らかの改善は見られましたか?

Datalore では迅速にプロトタイプを作成し、結果をチーム全員と共有することが可能です。組織全体でのコラボレーションを大きく変えてくれました。

今後の予定

Datalore で認証の一元化を構成する時間をまだ持てていませんが、数か月以内には取り掛かる予定です。また、計算時間を節約できるように、Kubernetes(K8s)クラスターでの水平スケーリングにも取り組みたいと考えています。

当面はこの秋の中間選挙に向けて積極的に準備を進めていきます。この準備には Datalore が欠かせなくなるでしょう。

お問い合わせ

同様のカスタマーストーリー

Hunters

Netanel Golani、Hunters 脅威ハンティングエキスパート

Hunters のデータサイエンスチームが Datalore を使い始めてから 1 か月しか経っていませんが、多数の顧客データソースを処理する場合など、すでに日常のワークフローで生産性とユーザビリティが改善されています。

Chainalysis

Surya Rastogi、Chainalysis シニアスタッフデータサイエンティスト

最大の課題は、ブロックチェーンの領域が急速に拡大しているため、取得して分析する必要のある新しいデータが常に存在することです。 弊社では、データ取り込みと処理の関数が大量にあり、今後も増加し続けると見込んでいます。

TrueLayer

Moreno Raimondo Vendra、TrueLayer シニア機械学習エンジニア

Datalore によってセキュリティ要件を満たしながら人間工学的にデータにアクセスできるようになったため、弊社にとってはゲームチェンジャーとなりました。 そのため、機械学習チーム内だけでなく関係者とのコラボレーションもはるかに簡単に行えるようになりました。

その他のカスタマーストーリー