Независимо от того, работаете ли вы с CSV-файлами, корзинами S3 или базами данных SQL, Datalore предоставляет удобный доступ к данным из нескольких источников в одном ноутбуке.
Смотрите видео о подключении к источникам данных:
В Datalore есть постоянное внутреннее хранилище для быстрого доступа к ноутбукам и другим рабочим артефактам.
Все данные — и загруженные локальные файлы и папки, и импортированные по ссылке, и скачанные файлы из репозитория кода — хранятся в файлах ноутбука. Когда вы делитесь ноутбуком с коллегами, они автоматически получают доступ к его файлам.
Используя файлы рабочего пространства, можно сделать наборы данных доступными для нескольких ноутбуков. Достаточно один раз загрузить набор данных в рабочее пространство, и он будет доступен каждому редактору в этом пространстве.
Ноутбуки можно в несколько кликов подключить к базам данных прямо из редактора, а затем создавать запросы с помощью нативных ячеек SQL, не передавая среде свои учетные данные.
Datalore поддерживает аутентификацию по логину и паролю для Amazon Redshift, Azure SQL Database, MariaDB, MySQL, Oracle, PostgreSQL, Snowflake и других баз данных. Если у вас есть дополнительные вопросы о подключении к базам данных, напишите нам на datalore-support@jetbrains.com.
При подключении к базе данных можно выбрать, какие схемы и таблицы включать в интроспекцию. Это поможет ускорить первую интроспекцию и упростит навигацию по базе.
В новой версии администраторы могут добавить пользовательские JDBC-драйверы для подключения к базам данных, нативная поддержка которых в Datalore Enterprise отсутствует. Перейдите в Admin panel | Miscellaneous и откройте диалог New custom database driver. Здесь можно выбрать и загрузить файлы драйверов из локальной системы.
Подключайтесь к удаленным базам данных с помощью SSH-туннелей. Между Datalore и вашим сервером шлюза будет установлено зашифрованное SSH-соединение. Через SSH-туннели можно подключаться к базам данных, которые не доступны через публичную сеть.
Корзины AWS S3 и GCS можно монтировать в ноутбуке как папки, не передавая среде свои учетные данные.
Подключиться к источникам данных можно не только через пользовательский интерфейс: к любой корзине, хранилищу или базе данных можно подключиться из кода, как это обычно делается в Jupyter-ноутбуках.
Используйте нативные ячейки SQL при создании запросов к подключенным базам данных. Помимо подсветки синтаксиса SQL, вы можете пользоваться автодополнением кода, опирающимся на интроспекцию таблиц базы данных. Результат запроса сразу же передается в Pandas DataFrame, и дальше с этим набором данных можно работать на Python.
Вы можете писать SQL-запросы в SQL-ячейках для работы с данными из 2D DataFrames и CSV-файлов, приложенных к ноутбуку — точно так же, как при работе с БД. Просто посмотрите DataFrames ноутбука, выберите нужный и используйте его как источник для SQL-ячеек. Благодаря этой функции, можно с помощью SQL объединять данные из разных источников в один DataFrame и разбивать сложные запросы на несколько ячеек SQL.
Теперь вы можете использовать переменные, заданные в Python-скриптах (строки, числа, списки, логические типы данных), в ячейках SQL. Это позволит вам создавать интерактивные отчеты с параметризованными запросами и писать меньше кода на SQL. Также это облегчит просмотр отчетов для пользователей.
Эта функция обеспечивает работу с базами данных в изолированных окружениях. Вы можете выполнять SQL-код без подключения к интернету, обеспечивая точность и согласованность обмена информацией между вашим ноутбуком и базой данных, а также минимизируя риск повреждения или потери данных.
В новой версии можно клонировать подключения к базам данных из одного рабочего пространства в другое, чтобы не настраивать их заново. Все настройки, кроме учетных данных, можно просто скопировать. Кроме того, вы можете выбрать сразу несколько рабочих пространств.
В меню File system, а также прямо из ноутбука можно добавить в рабочее пространство хранилище SMB/CIFS. После этого вы сможете просматривать и изменять содержимое папок SMB прямо в ноутбуке.