无论您使用 CSV 文件、S3 存储桶还是 SQL 数据库,Datalore 都可以让您在一个 Notebook 中轻松访问和查询来自多个数据源的数据。
观看以下数据连接视频概览:
Datalore 具有持久的内部存储空间,用于快速访问您的 Notebook 和其他工作工件。
无论您是上传本地文件和文件夹、通过链接导入数据,还是从代码中下载文件,所有数据都将存储在 Notebook 文件中。 与协作者共享 Notebook 时,将自动共享 Notebook 文件。
通过工作区文件在多个 Notebook 之间共享数据集。 在共享工作区中工作时,可以上传一次数据集,它将用于每个工作区编辑器。
只需点击几下,即可直接从编辑器将您的 Notebook 连接到数据库,并使用原生 SQL 单元查询您的数据,无需将您的凭据传输到环境中。
Datalore 支持 Amazon Redshift、Azure SQL 数据库、MariaDB、MySQL、Oracle、PostgreSQL、Snowflake 等的用户和密码身份验证。 如果您有关于数据库连接的具体问题,请发送电子邮件至 datalore-support@jetbrains.com 与我们联系。
在 Datalore 中创建数据库连接时,选择要内省的特定数据库架构和表。 这将有助于加快初始内省的速度,并使架构导航更容易。
管理员现在可以添加自定义 JDBC 驱动程序,用于连接到 Datalore Enterprise 未原生支持的数据库。 转到 Admin panel | Miscellaneous(管理面板 | 杂项),使用 New custom database driver(新建自定义数据库驱动程序)对话框从本地系统选择并上传驱动程序文件。
在 Datalore 中使用 SSH 隧道连接到远程数据库。 这将在 Datalore 与网关服务器之间创建加密 SSH 连接。 通过 SSH 隧道连接可以连接到未暴露于公共网络的数据库。
将 AWS S3 和 GCS 存储分区作为文件夹直接挂载到 Notebook,无需将您的凭据传输到环境中。
除了通过用户界面连接支持的数据源外,您还可以像往常使用 Jupyter Notebook 一样,通过代码连接任何存储分区、数据库或数据存储空间。
添加原生 SQL 单元以查询您的数据库连接。 除了 SQL 语法高亮显示外,您还可以根据内省的数据库表获得代码补全。 查询结果会自动传输到 Pandas DataFrame,您可以继续在 Python 中处理数据集。
使用 SQL 单元可以从附加的文档轻松查询 2D DataFrame 和 CSV 文件,与使用数据库时相同。 只需浏览 Notebook 的 DataFrame,选择一个,然后将其用作 SQL 单元的源。 通过此功能,您可以使用 SQL 将不同源中的数据合并到单个 DataFrame 中,或将复杂查询分解为一系列 SQL 单元。
在 Datalore 中,现在可以在 SQL 单元中使用 Python 代码中定义的变量(字符串、数字、布尔值、列表)。 这允许您使用参数化查询构建交互式报告,有助于减少编写的 SQL 代码,并为报告用户提供更好的 UI。
借助此功能,即使在隔离环境中,您也可以使用数据库。 在没有互联网连接的情况下运行 SQL 代码,确保 Notebook 和数据库之间交换的信息保持准确一致,并最大限度地减少数据损坏或丢失的几率。
您现在可以将数据库连接从一个工作区克隆到另一个工作区,消除了对重复设置的需求。 只需复制设置,不包括凭据,这样可以节省时间。 您还可以一次选择多个工作区。
通过 File system(文件系统)视图或直接从 Notebook 界面将 SMB/CIFS 存储添加到工作区。 在 Notebook 环境内即可访问和修改 SMB 文件夹内容。