我是 TrueLayer 的高级机器学习工程师 Moreno Raimondo Vendra。我们的机器学习团队为组织中具有数据密集型需求的其他团队提供支持。我们协助他们处理大量数据,生成数据见解,并根据这些数据创建机器学习模型。我们的工作主要围绕 TrueLayer 产品用例,但有时也包括研究项目。
TrueLayer 是一家金融科技公司,也是一家开放银行服务提供商,因此我们主要处理财务数据。我们允许客户访问开放银行数据,确保符合 GDPR。我的团队参与的一个项目是使用额外的商家信息丰富用户交易。
处理财务数据并不容易,因为你不能仅仅访问生产数据库或数据湖、下载数据并开始处理。你必须确保数据的安全访问并产生易于共享的见解。
过去,我们有一台独立的 AWS EC2 机器,但由于多个 VPN 和经常过期的临时个人凭证,它很难登录。我们无法轻松升级实例的大小来处理更大的数据量。当然,上手对于新团队成员来说也相当痛苦。
“Datalore 使我们的团队能够以符合人体工程学的方式访问数据,同时满足安全要求,这对我们来说是一个翻天覆地的变化。由此,我们在机器学习团队内部以及与利益相关方之间都可以更轻松地开展协作。”
— Moreno Raimondo Vendra,TrueLayer 高级机器学习工程师
我们在我们的三人机器学习团队中大量使用 Datalore,公司中还有另外两个利益相关方。
我们处理的数据通常在运营数据库中生成,但我们随后将部分数据存储在 AWS S3 上的数据湖中。我们处理的主要数据类型是开放银行交易的去个人化元数据。我们通常通过 S3 的 Python 客户端访问这些数据。
我们还处理由我们自己的服务生成的数据,例如日志和指标。借助 Datalore,我们能够调试需要检索数百 GB 数据的复杂问题,还能够识别模式、可视化数据和共享见解。
我们主要使用 pandas,经常使用非常直观的 Visualize 标签页。它使数据探索速度更快,体验更好。
这也是我们协作努力的方向。有人拉取数据并共享 Notebook 与团队一起编辑,后续还会有人拾起它并开展进一步工作。我们始终尽力把每一个 Notebook 都做成一份报告。分析完成后,我们总会添加结论并应用叙事做法,做出一件有意义的作品。
Datalore 让我们能够很好地讲述这种数据故事,因为我们有了一个地方来拉取数据、用 Python 进行复杂操作(我们可以尽可能深入挖掘)、创建可视化效果并将结果导出为对商业消费者友好的格式。我们可以在一个地方完成,不必与多个工具交互。我们可以生成 PDF 和静态报告,甚至安排定期运行并跟踪特征和指标在一段时间内的变化。这些运行的历史记录对我们来说非常有用。
“数据探索和报告对我们来说是一个非常有吸引力的用例。但我们也在模型原型设计和训练等领域使用 Datalore,通过轻松访问数据更快进行实验。”
在工作区中组织 Notebook,就很容易跟踪每个团队成员为特定项目和主题所做的工作。这个问题在软件工程上已经得到解决,因为有 GitHub、GitLab 和其他 git 式平台。但在数据科学和 Notebook 协作方面,这对组织来说并非易事。
“Datalore 使协作更加简单,让我们可以在一个地方有序组织所有有价值的工作。”
在 TrueLayer,我们是一个机器学习工程师团队,我们通常的做法是聚在一起在 Notebook 上进行结对编程。
我们还使用 PyCharm 和 Code With Me 插件开发代码。在不同工具之间,实时编辑代码的界面和体验是相似的,这一点我们非常喜欢。例如,为一个机器学习模型运行训练脚本时,我们可以实时协作处理 Attached files 中的 Python 脚本。它让我们能够一起编写代码,而不是视频聊天,使问题能被更快更容易地发现和修正。在工作区中,有这样一个地方来组织工作同时跟踪历史记录,提高了团队的生产力。
我们在集群上部署了模型服务器,它们本质上是 Python API。我们通常会在 Datalore 中创建一个训练 Notebook,训练模型,生成模型工件(归档),然后将其部署到集群。然后,我们使用 PyCharm 和 Code With Me 来开发模型服务器 API。在不同 JetBrains 工具中使用熟悉的 UI 让这个过程对团队来说非常方便。
最近,我们的软件和数据工程师表现出很大的兴趣,他们精通数据,希望以更轻松的方式访问数据产品。现在,很多工程师都知道 Jupyter Notebook 是什么,但是通过 Datalore 轻松提供数据连接绝对有助于降低软件工程师的准入门槛。
Netanel Golani,Hunters 威胁搜寻专家
Hunters 的数据科学团队开始使用 Datalore 才一个月,它为日常工作流带来的生产力和实用性改进就已经非常明显,特别是在处理大量客户数据源时。
Chad Rosenberg,The Center for New Data 技术主管
Datalore 提供了不同于 Airflow 的数据处理方式,例如调试管道结果、试用 Web 挂钩以及使用自动绘图功能快速可视化数据。 使用 Datalore 中的原生 Snowflake 连接器以及 pandas 中的程序化连接器,在处理共享 Notebook 时可以节省大量时间。
Surya Rastogi,Chainalysis 高级数据科学家
我们最大的挑战之一是区块链空间正在迅速扩大,总是有新的数据需要获取和分析。 我们公司有许多数据获取和处理功能,这些功能还会继续增长。