行业: 调查研究

使用的 JetBrains 产品: Datalore

组织规模: 15

国家/地区: 美国

The Center for New Data

The Center for New Data 与民间团体、科技公司和学者合作,借助大数据将开创性方法带入民主运动。

The Center for New Data 如何使用 Datalore 和 Airflow 每天处理 300 GB 数据

关于 The Center for New Data

您能介绍一下自己吗?

大家好,我是 The Center for New Data (newdata.org) 的技术主管 Chad Rosenberg。我领导基础设施运营并管理 New Data 的数据科学家、工程师和统计学家国家志愿者队伍。

New Data 参与哪些项目?

我们的旗舰项目利用大数据衡量美国的投票机会,分析全国数万个投票地点数百万选民的等待时间,将其与地区和个人的社会经济地位联系起来,显示不同地点的不同投票机会。另一个项目让我们利用流动性数据,而不仅仅是概念性方式,找到目标社区。如果能更好地将这些经常被边缘化的社区组织到投票区,就可以减少两极分化,实现更健康的民主。


要解决的问题

是什么让你们决定寻找 Datalore 或替代解决方案?你们先前遇到了哪些挑战?

先前的 Notebook 解决方案很难维护。它有一些难以解决的 Kubernetes 依赖项问题。从一个版本迁移到另一个版本非常困难。作为志愿者组织,DevOps 时间对我们来说非常重要。我们之所以喜欢 Datalore 是因为,它是交钥匙解决方案,这让我们能够在 AWS 上的 Kubernetes 集群中轻松设置。我们需要资源才能运作,相关支持则会让工作更加简单。


“Datalore 让我们的团队能够快速制作原型并与各个成员共享结果,它已经是我们整个组织的突破性协作工具。”

— Chad Rosenberg,The Center for New Data 技术主管


Datalore 体验

你们的团队中有哪些人使用 Datalore?

我们大约有 15 个 Datalore 席位,团队中的大多数人都专注于数据质量。数据质量团队使用 Datalore 排除 Apache Airflow 计划结果的问题、进行探索性分析和构建数据报告。

你们处理什么样的数据?

我们目前使用 Snowflake 作为主数据库。我们从数据提供商提取大约 300 GB 的匿名手机位置数据,使用 Apache Airflow 计算主要指标,然后将生成的数据集放入 Snowflake。

Datalore 主要提供了哪些优势?

Datalore 提供了不同于 Airflow 的数据处理方式,例如调试管道结果、试用 Web 挂钩以及使用自动绘图功能快速可视化数据。使用 Datalore 中的原生 Snowflake 连接器以及 pandas 中的程序化连接器,在处理共享 Notebook 时可以节省大量时间。

我们也喜欢发布报告功能。这允许更广泛的受众查看我们的工作成果。我们可以只编写一份快速报告,发布它,然后说“这里有一个 URL”,让查看者不必下载数据。

你们什么时候使用原生 Snowflake 数据库连接和 SQL 单元?你们什么时候通过 Python 访问数据库?

开始组装查询时,使用原生 SQL 单元和 Snowflake 连接非常简单。要在 SQL 上运行循环时,我们会使用 pandas 并在那里复制粘贴 SQL 字符串。

您能否举例说明你们团队如何协作?

有人将使用 SQL 单元导入数据并准备生成的数据帧。然后,其他团队成员开始调查同一 Notebook 中的数据,生成数据质量报告,接着我们将结果与先前的运行进行比较。

你们是否注意到数据团队的工作流有所改进?

Datalore 让我们的团队能够快速制作原型并与各个成员共享结果,它已经是我们整个组织的突破性协作工具。

接下来有什么值得期待的?

我们还没有时间在 Datalore 中配置集中式身份验证,但预计在接下来的几个月内展开相关工作。我们还希望在 Kubernetes (K8s) 集群中处理水平扩展,以此节省一些计算时间。

与此同时,我们正在积极筹备今年秋季的中期选举,Datalore 将成为我们筹备工作中不可或缺的一部分。

联系方式

同类客户案例

Hunters

Netanel Golani,Hunters 威胁搜寻专家

Hunters 的数据科学团队开始使用 Datalore 才一个月,它为日常工作流带来的生产力和实用性改进就已经非常明显,特别是在处理大量客户数据源时。

Chainalysis

Surya Rastogi,Chainalysis 高级数据科学家

我们最大的挑战之一是区块链空间正在迅速扩大,总是有新的数据需要获取和分析。 我们公司有许多数据获取和处理功能,这些功能还会继续增长。

TrueLayer

Moreno Raimondo Vendra,TrueLayer 高级机器学习工程师

Datalore 使我们的团队能够以符合人体工程学的方式访问数据,同时满足安全要求,这对我们来说是一个翻天覆地的变化。 由此,我们在机器学习团队内部以及与相关方之间都可以更轻松地开展协作。

更多客户案例