Ноутбуки

Jupyter-ноутбук — основа любого проекта по анализу данных. Datalore включает в себя все необходимые инструменты для работы с Jupyter-ноутбуками. Платформа предоставляет помощь в написании кода на Python, SQL, R, Scala и Kotlin, чтобы вы могли продуктивно работать и писать качественный код с меньшими усилиями. Редактор Datalore обеспечивает быстрый доступ к подключенным источникам данных, автоматическим визуализациям, статистике набора данных, инструменту составления отчетов, менеджеру среды, управлению версиями и другим полезным инструментам.

Узнайте из видео, как легко создавать Jupyter-ноутбуки в Datalore:

Поддержка Jupyter

Ноутбуки Datalore поддерживают Jupyter-формат. Благодаря этому можно загрузить существующие IPYNB-файлы и работать с ними дальше в Datalore. Кроме того, можно экспортировать ноутбуки в виде IPYNB-файлов. Обратите внимание: подключения к источникам данных и интерактивные элементы управления при этом не экспортируются.

Ноутбуки Python

Умное автодополнение кода как в PyCharm

В Datalore встроены функции анализа кода из PyCharm. Работая с Python-ноутбуками, вы можете пользоваться автодополнением кода, подсказками параметров, инспекциями, быстрыми исправлениями и рефакторингами. Все это помогает писать качественный код с меньшими усилиями.

Встроенная документация

В Datalore доступны всплывающие подсказки для любого метода, функции, пакета или класса. Вы увидите нужную информацию из документации именно там, где она вам понадобится.

Поддержка conda и pip

Datalore поддерживает менеджеры пакетов conda и pip. Pip — быстрый бесплатный менеджер, который подходит всем пользователям, а conda предоставляется бесплатно только для некоммерческого использования.

Ноутбуки Kotlin, Scala и R

В Datalore можно создавать ноутбуки Kotlin, Scala и R. Установить пакеты можно с помощью magic-команд, а при написании кода пользоваться возможностями автодополнения.

Ячейки SQL

Используйте нативные ячейки SQL при создании запросов к подключенным базам данных. Помимо подсветки синтаксиса SQL вы можете пользоваться автодополнением кода, опирающимся на интроспекцию таблиц БД. Результат запроса сразу же передается в Pandas DataFrame, и дальше с этим набором данных можно работать на Python.

Запросы к DataFrames из ячеек SQL

Вы можете использовать ячейки SQL для удобной отправки запросов к двумерным DataFrames и CSV-файлам из приложенных документов — точно так же, как при работе с базами данных. Просто посмотрите DataFrames ноутбука, выберите нужный и используйте его как источник для SQL-ячеек. Благодаря этой функции, можно с помощью SQL объединять данные из разных источников в один DataFrame и разбивать сложные запросы на несколько ячеек SQL.

Поддержка переменных в ячейках Markdown

Чтобы встроить свои переменные в ячейки Markdown, используйте двойные фигурные скобки. Переменные динамически преобразуются в значения внутри текста.

Окружение

Менеджер зависимостей

В Datalore встроен менеджер зависимостей, который обеспечивает воспроизводимость окружения. Он позволяет устанавливать новые пакеты и управлять ими, гарантируя их наличие при повторном открытии ноутбука.

Пользовательские базовые среды

Из пользовательских образов Docker можно создать несколько базовых окружений. Все зависимости, версии пакетов и настройки инструмента сборки можно сконфигурировать заранее, чтобы команда не тратила время, устанавливая и синхронизируя их вручную.

Пакеты из Git-репозиториев

Установите пользовательский pip-совместимый пакет из Git-репозитория, добавив ветку Git в свой ноутбук.

Скрипты инициализации

Создайте скрипт, который будет выполняться перед запуском ноутбука. В скрипте можно указать все необходимые инструменты сборки и зависимости.

Визуализация

Вкладка Visualize

На вкладке Visualize вы найдете параметры автоматической визуализации для любого Pandas DataFrame. Графики различных типов — Point, Line, Bar, Area и Correlation — помогут быстро проанализировать данные. Если набор данных очень велик, будет автоматически сделана выборка. После этого все графики можно экспортировать в виде кода или ячеек диаграмм для дополнительной настройки.

Поддержка всех пакетов визуализации Python

Создавайте визуализации, используя любые пакеты. Ноутбуки Datalore поддерживают matplotlib, plotly, altair, seaborn, lets-plot и многие другие пакеты.

Ячейки диаграмм

Создавайте готовые визуализации всего за пару кликов. Состояние ячеек доступно и другим членам команды, так что над визуализацией можно работать вместе с коллегами.

Интерактивные таблицы

Фильтруйте и сортируйте Pandas DataFrames и результаты SQL-запросов прямо в результатах выполнения ячеек. Вы можете выбрать, какие столбцы нужно отображать, отсортировать данные в определенном столбце, отфильтровать по выражениям equals и contains и быстро перемещаться вверх-вниз по набору данных. Завершив фильтрацию и сортировку, используйте опцию Export to code cell, чтобы сгенерировать фрагмент Pandas-кода и сделать представление таблицы воспроизводимым.

Редактирование ячеек DataFrame в интерактивных таблицах

Больше не нужно скачивать CSV-файлы, чтобы внести изменения в DataFrame. Просто отредактируйте содержимое ячейки в интерактивной таблице и нажмите Export to code, чтобы воспроизвести результат в ноутбуке.

Статистика DataFrame

На отдельной вкладке Statistics в один клик можно получить основную описательную статистику для DataFrame. Для столбцов категорий можно посмотреть распределение значений, а для числовых столбцов Datalore рассчитывает минимальное, максимальное и медианное значения, среднеквадратическое отклонение, процентили, а также показывает количество нулевых значений и статистических выбросов.

Интерактивные элементы управления

Добавляйте в ноутбуки интерактивные раскрывающиеся списки, слайдеры и поля для ввода текста, а также используйте входные значения в качестве переменных в своем коде. Визуализируйте данные с помощью ячеек диаграмм и выделяйте важные цифры в ячейках метрик.

Интерактивный элемент управления загрузкой файлов

Теперь владельцы отчетов и ноутбуков могут разрешить внешним сотрудникам загружать файлы CSV и TXT, а также изображения с локальных компьютеров. Чтобы загрузка не мешала рабочему процессу, настройте допустимые типы файлов и их предельный размер.

Ячейка Export to database

DataFrames можно экспортировать в существующие таблицы в базе данных прямо из ноутбука. Для настройки экспорта выберите DataFrame, целевую базу данных, схему и таблицу. Кроме того, можно настроить автоматический экспорт по расписанию.

Поддержка IPyWidgets

Datalore поддерживает IPyWidgets — классический фреймворк виджетов Jupyter. Добавляйте интерактивные элементы управления с помощью Python-кода, объединяйте несколько виджетов в одной ячейке и используйте выделение в качестве переменной в следующих частях ноутбука.

Предпросмотр CSV-файлов

Файлы CSV и TSV, представленные на вкладке Attached data, открываются в отдельной вкладке в редакторе Datalore. Там можно отсортировать значения в столбцах и разбить содержимое файла на страницы.

Редактирование CSV-файлов

Редактор Datalore поддерживает файлы CSV и TSV. Можно создать новый файл с нуля или отредактировать существующий.

Терминал

Открыв окна терминала прямо в редакторе и выполнив скрипты .py, можно получить доступ к агенту, среде и файловой системе с помощью стандартных bash-команд.

Просмотр переменных

Просматривайте переменные ноутбука и значения встроенных параметров, не переходя в другое окно.

Внутреннее управление версиями

Создавайте контрольные точки, чтобы в любой момент можно было откатить изменения с помощью инструмента управления версиями. При просмотре контрольной точки вы увидите разницу между текущей версией ноутбука и выбранной.

Вычисления

Запуск ноутбуков на ЦП и ГП

Datalore позволяет запускать ноутбуки на центральном и графическом процессоре. В интерфейсе можно выбрать нужную машину. Тип и объем доступных ресурсов зависят от плана подписки. Подробнее читайте здесь.

Частное облако и локальная установка

Вы можете подключить свое серверное оборудование к Datalore и сделать его доступным через пользовательский интерфейс.

Режим Reactive для воспроизводимых исследований

Режим Reactive принудительно использует порядок вычисления сверху вниз и выполняет перерасчет для ячеек, находящихся ниже измененной. Состояние ноутбука сохраняется после каждого выполнения ячейки, и его можно в любой момент восстановить.

Фоновые вычисления

Переключайтесь в режим фоновых вычислений, чтобы ноутбук работал, даже когда вы закроете вкладку браузера. Доступ к выполняющимся вычислениям можно в любой момент получить из пользовательского меню или с панели управления.

Отчеты об использовании ресурсов процессоров

Скачайте отчеты в CSV-формате о том, сколько времени вы использовали каждый процессор: это поможет понять, каким проектам вы уделяли больше внимания.

Запуск ноутбуков по расписанию

Вы можете запускать ноутбуки по расписанию: каждый час, каждый день, раз в неделю или раз в месяц. Так опубликованные отчеты будут обновляться регулярно. Настроить расписание можно в интерфейсе или при помощи Cron-выражения. Коллеги смогут получать уведомления о результатах запуска по электронной почте.

Несколько расписаний для одного ноутбука

Теперь для одного ноутбука можно создать несколько расписаний и управлять ими через интерфейс. Вы можете настроить расписания для запуска ноутбука каждый час, каждый день, раз в неделю или по определенным дням. Индивидуальная настройка расписания позволяет эффективнее распределять ресурсы и задавать время исполнения кода в зависимости от потребностей проекта.

API запуска Datalore

Теперь запустить ноутбук Datalore или повторно опубликовать отчет можно, вызвав новый API. Эта функция дополняет собой запуск ноутбуков по расписанию и позволяет запустить ноутбук в произвольный момент из внешних приложений или внутренних ноутбуков Datalore. Кроме того, результаты запуска можно посмотреть в меню Scheduled run. Подробнее об использовании API — в документации.

API запуска Datalore

Нативная поддержка пакетов R

При работе с R-ноутбуками теперь можно устанавливать пакеты из публичных и закрытых репозиториев, которые поддерживаются функцией install.packages на вкладке Environment manager. Environment manager помогает поддерживать постоянную конфигурацию окружения при нескольких запусках ноутбука. Создав файл .Rprofile в init.sh или пользовательский образ агента, можно настроить пользовательский репозиторий.

В облачной версии по умолчанию используется инсталляция conda, а пользователи версии Enterprise могут настроить другое базовое окружение с помощью ядра R. После этого в результатах поиска Environment manager будут отсутствовать пакеты conda. Пример такой инсталляции

Нативная поддержка пакетов R

Поиск по содержимому ноутбуков

Вы можете искать нужные разделы кода или информацию по всем ноутбукам в ваших рабочих пространствах. Помимо имен ноутбуков, в новой версии можно искать имена переменных и содержимое. То, что вы ищете, будет подсвечено в результатах поиска.

Поиск по содержимому ноутбуков