大家好,我是 The Center for New Data (newdata.org) 的技术主管 Chad Rosenberg。我领导基础设施运营并管理 New Data 的数据科学家、工程师和统计学家国家志愿者队伍。
我们的旗舰项目利用大数据衡量美国的投票机会,分析全国数万个投票地点数百万选民的等待时间,将其与地区和个人的社会经济地位联系起来,显示不同地点的不同投票机会。另一个项目让我们利用流动性数据,而不仅仅是概念性方式,找到目标社区。如果能更好地将这些经常被边缘化的社区组织到投票区,就可以减少两极分化,实现更健康的民主。
先前的 Notebook 解决方案很难维护。它有一些难以解决的 Kubernetes 依赖项问题。从一个版本迁移到另一个版本非常困难。作为志愿者组织,DevOps 时间对我们来说非常重要。我们之所以喜欢 Datalore 是因为,它是交钥匙解决方案,这让我们能够在 AWS 上的 Kubernetes 集群中轻松设置。我们需要资源才能运作,相关支持则会让工作更加简单。
“Datalore 让我们的团队能够快速制作原型并与各个成员共享结果,它已经是我们整个组织的突破性协作工具。”
— Chad Rosenberg,The Center for New Data 技术主管
我们大约有 15 个 Datalore 席位,团队中的大多数人都专注于数据质量。数据质量团队使用 Datalore 排除 Apache Airflow 计划结果的问题、进行探索性分析和构建数据报告。
我们目前使用 Snowflake 作为主数据库。我们从数据提供商提取大约 300 GB 的匿名手机位置数据,使用 Apache Airflow 计算主要指标,然后将生成的数据集放入 Snowflake。
Datalore 提供了不同于 Airflow 的数据处理方式,例如调试管道结果、试用 Web 挂钩以及使用自动绘图功能快速可视化数据。使用 Datalore 中的原生 Snowflake 连接器以及 pandas 中的程序化连接器,在处理共享 Notebook 时可以节省大量时间。
我们也喜欢发布报告功能。这允许更广泛的受众查看我们的工作成果。我们可以只编写一份快速报告,发布它,然后说“这里有一个 URL”,让查看者不必下载数据。
开始组装查询时,使用原生 SQL 单元和 Snowflake 连接非常简单。要在 SQL 上运行循环时,我们会使用 pandas 并在那里复制粘贴 SQL 字符串。
有人将使用 SQL 单元导入数据并准备生成的数据帧。然后,其他团队成员开始调查同一 Notebook 中的数据,生成数据质量报告,接着我们将结果与先前的运行进行比较。
Datalore 让我们的团队能够快速制作原型并与各个成员共享结果,它已经是我们整个组织的突破性协作工具。
我们还没有时间在 Datalore 中配置集中式身份验证,但预计在接下来的几个月内展开相关工作。我们还希望在 Kubernetes (K8s) 集群中处理水平扩展,以此节省一些计算时间。
与此同时,我们正在积极筹备今年秋季的中期选举,Datalore 将成为我们筹备工作中不可或缺的一部分。
Netanel Golani,Hunters 威胁搜寻专家
Hunters 的数据科学团队开始使用 Datalore 才一个月,它为日常工作流带来的生产力和实用性改进就已经非常明显,特别是在处理大量客户数据源时。
Surya Rastogi,Chainalysis 高级数据科学家
我们最大的挑战之一是区块链空间正在迅速扩大,总是有新的数据需要获取和分析。 我们公司有许多数据获取和处理功能,这些功能还会继续增长。
Moreno Raimondo Vendra,TrueLayer 高级机器学习工程师
Datalore 使我们的团队能够以符合人体工程学的方式访问数据,同时满足安全要求,这对我们来说是一个翻天覆地的变化。 由此,我们在机器学习团队内部以及与相关方之间都可以更轻松地开展协作。