大家好,我是 Chainalysis 的高级数据科学家 Surya Rastogi。我主要分析区块链数据,并为公司内的许多团队提供分析工具。目前,我负责开发我们的研究工具。
Chainalysis 为 70 多个国家/地区的政府机构、交易所、金融机构以及保险和网络安全公司提供数据、软件、服务和研究。我们的数据平台驱动调查、合规与风险管理工具,解决全球重大网络犯罪案件,并为消费者的加密货币存取保驾护航。
我们最大的挑战之一是区块链空间正在迅速扩大,总是有新的数据需要获取和分析。我们公司有许多数据获取和处理功能,这些功能还会继续增长。
“Datalore 提供了涵盖所有数据的顶级接口,数据科学家可以浏览不同数据源并将其组合起来进行深入分析。”
— Surya Rastogi,Chainalysis 高级数据科学家
Chainalysis 总计有 35 人使用 Datalore。研究部门专注于研发和深度技术,负责管理 Datalore 安装并提供其他数据科学功能。产品数据科学家分析待发往产品的数据,并审查这些数据寻找潜在异常值和复杂性。最近引入时间安排功能后,数据科学工程师开始更频繁地使用 Datalore。过去,这些工程师会编写 Airflow DAG,但我们已经过渡到在一些用例中使用定时运行。
Datalore 改良并简化了上手流程。此前,我们的文档分布在 Git 仓库中,我们有 autodoc 网页。但现在,通过 Datalore,我们可以给新手一个“使用入门”Notebook 来复制和直接使用。此外,由于静态报告可以包含代码单元,我们还可以轻松创建分析师可以复制粘贴示例代码段的文档报告。
“Datalore 对于减少入门障碍和记录工作流非常有用。”
最初上手 Datalore 时,我们以为会对新人更多使用实时协作功能,但奇怪的是我们并没有。不过,我们确实在多人通话中使用实时协作(有效的成群编程)。但在大多数情况下,只有一个特定人员推进代码。
我们有存储在 S3 或 minIO 等存储库中的二进制“临时”数据,我们还利用 S3 作为数据仓库和湖库上游的数据湖层。我们还有许多经典的 SQL 数据库,例如 Postgres。最初并非功能的数据库集成也加入了 Datalore。随着功能的发展,我们的许多 SQL 分析师得以访问需要的 DataGrip 功能,从而更广泛地使用 Datalore。
开始时,我们并没有将 Datalore 安装在 AWS 中,但我们将它迁移到 AWS,从而继续使用一些服务,例如 Athena。然后,添加数据源和其他 AWS 存储库都相当简单。
在分享工作成果时,我们主要喜欢利用报告功能。它让我们可以用 Markdown 来注解工作流、发布遍历数据源的报告,以及为实现特定结果应用的转换。
此外,我们已经开始利用 Datalore 将工作结果填充到分析数据库。过去,我们对这些用例使用 Airflow,在时间安排功能加入后,我们得以改用 Datalore。我们曾经有一个负责一些数据库填充的 DAG,现在已经替换为每小时运行的 Datalore Notebook。最初,我们主要使用 Datalore 作为数据源的只读工具,但时间安排功能加入后,我们开始完全通过 Datalore 填充一些数据库。相较于从调查开始,然后将代码迁移到 Airflow 的 DAG,这个工作流更加简单。
“时间安排是我个人最喜欢的新功能。”
最后,还有执行特定领域分析的调查员和分析师。他们为同侪发布交互式报告,成果被共享为调查的分析“操作手册”。需要类似分析时,共享链接即可重用报告。
核心研究团队有基于项目的小组。这些小组将举行会议,在 Datalore 中打开共享 Notebook 一起浏览。正如我之前提到的,数据工程师最近开始与数据科学家协作,利用定时运行来填充数据。
首先,我们正在继续整合数据科学基础架构。Datalore 让我们不再需要 nbviewer(展示 Notebook)和 Google Colab(在 Notebook 上协作)等工具。现在,借助时间安排功能,我们已经开始将 Airflow 用例整合到 Datalore 中。
其次,在 Chainalysis 引入 Datalore 时,我首先召集了所有使用 Python 进行数据科学的人,然后是以 SQL 为中心的分析师。将来,我们可能还希望扩展安装来处理商业智能用例(例如业务仪表板)。
最后,我们已经开始关注数据科学的 UI,也已经构建了一个内部工具,其中包含指向最重要的交互式报告和其他仪表板的链接。我们已经能够将其嵌入 Datalore,在各种数据科学前端之间创建导航 iframe。
Netanel Golani,Hunters 威胁搜寻专家
Hunters 的数据科学团队开始使用 Datalore 才一个月,它为日常工作流带来的生产力和实用性改进就已经非常明显,特别是在处理大量客户数据源时。
Chad Rosenberg,The Center for New Data 技术主管
Datalore 提供了不同于 Airflow 的数据处理方式,例如调试管道结果、试用 Web 挂钩以及使用自动绘图功能快速可视化数据。 使用 Datalore 中的原生 Snowflake 连接器以及 pandas 中的程序化连接器,在处理共享 Notebook 时可以节省大量时间。
Moreno Raimondo Vendra,TrueLayer 高级机器学习工程师
Datalore 使我们的团队能够以符合人体工程学的方式访问数据,同时满足安全要求,这对我们来说是一个翻天覆地的变化。 由此,我们在机器学习团队内部以及与相关方之间都可以更轻松地开展协作。