データ接続

CSV ファイル、S3 バケット、または SQL データベースのどれを操作する場合でも、Datalore では 1 つのノートブックで複数データソースのデータに簡単にアクセスし、クエリを実行できます。

データ接続に関する以下の概要動画をご覧ください。

内部ストレージ

Datalore には永続的な内部ストレージが備わっているため、ノートブックやその他の作業アーティファクトに素早くアクセスできます。

ノートブックファイル

ローカルのファイルやフォルダのアップロード、リンクによるデータインポート、コードからのファイルダウンロードのどの場合でも、すべてのデータはノートブックファイルに保存されます。 共同作業中のユーザーとノートブックを共有する場合、ノートブックファイルは自動的に共有されます。

ワークスペースファイル

ワークスペースファイルを介して複数のノートブックのデータセットを共有できます。 共有ワークスペースで作業する場合、データセットを一度アップロードするだけで、すべてのワークスペースエディターで使用できるようになります。

UI からのデータベース接続

資格情報を環境に渡すことなく、数クリックするだけでノートブックをエディターから直接データベースに接続し、ネイティブ SQL セルを使ってデータにクエリを実行できます。

Datalore は、Amazon Reshift、Azure SQL Database、MariaDB、MySQL、Oracle、PostgreSQL、Snowflake などのユーザーパスワード認証をサポートしています。 データベース接続に関する具体的なご質問は、datalore-support@jetbrains.com までお問い合わせください。

イントロスペクション対象 DB スキーマの制限

Datalore でデータベース接続を作成する際に、イントロスペクションの対象とする特定のデータベーススキーマとテーブルを選択できます。 これにより、初回のイントロスペクションを高速化し、スキーマをより簡単にナビゲーションできるようになります。

カスタム JDBC ドライバーのサポート

管理者がカスタム JDBC ドライバーを追加することで、Datalore Enterprise でネイティブにサポートされていないデータベースに接続できるようになりました。 Admin panel(管理者パネル)| Miscellaneous(その他)を開き、New custom database driver(新しいカスタムデータベースドライバー)ダイアログでローカルのシステムからドライバーファイルを選択してアップロードできます。

SSH トンネリングのサポート

Datalore で SSH トンネリングを使ってリモートデータベースに接続できます。 これにより、Datalore とゲートウェイサーバー間に暗号化された SSH 接続が作成されます。 SSH トンネル経由で接続することで、パブリックネットワークに公開されていないデータベースに接続することが可能となります。

S3 バケットのマウント

環境に資格情報を渡すことなく、AWS S3 と GCS のバケットをフォルダとしてノートブックに直接マウントできます。

コードからのデータ接続

ユーザーインターフェースからのサポート対象データソースへの接続とは別に、Jupyter ノートブックと同様にコードから任意のバケット、データベース、またはデータストレージに接続できます。

SQL セル

ネイティブ SQL セルを追加して、データベースに接続してクエリを実行できます。 SQL の構文ハイライト機能のほかに、イントロスペクションを行なったデータベーステーブルに基づくコード補完機能を使用できます。 クエリ結果は自動的に pandas DataFrame に転送されるため、Python でデータセットの操作を続行できます。

SQL セルを使用した DataFrame へのクエリ実行

データベースと同様に、SQL セルを使用して添付ドキュメントから簡単に 2D DataFrame と CSV ファイルにクエリを実行できます。 ノートブックの DataFrame を参照し、選択したものを SQL セルのソースとして使用するだけです。 この機能により、SQL を使用して複数の異なるソースのデータを単一の DataFrame にマージしたり、複雑なクエリを一連の SQL セルに分解したりできます。

パラメーター化 SQL クエリ

Datalore では、Python コードで定義された変数(文字列、数値、ブール値、リスト)を SQL セル内で使用できるようになりました。 このため、パラメーター化クエリを使用した対話型レポートの構築が可能になり、記述する SQL コードを最小限に抑え、レポートユーザー向けの UI が改善されました。

分離された環境にあるデータベースの操作

この機能により、分離された環境にあるデータベースも操作できます。 SQL コードがインターネットに接続せずに実行されるため、ノートブックとデータベース間でやり取りされる情報の正確性と整合性が維持され、データ破損や損失のリスクを最小限に抑えることができます。

ワークスペース間でのデータ接続のクローン

ワークスペース間でデータベース接続をクローンできるようになり、何度も同じ作業を行う必要がなくなりました。 資格情報を除く設定をコピーするだけで、時間を節約できます。 また、複数のワークスペースをまとめて選択するオプションもあります。

SMB/CIFS ストレージ

File system(ファイルシステム)ビューまたはノートブックインターフェースからワークスペースに SMB/CIFS ストレージを直接追加できます。 ノートブック環境を離れることなく SMB フォルダーの内容にアクセスし、変更できます。