Jupyter-ноутбук — основа любого проекта по анализу данных. Datalore включает в себя все необходимые инструменты для работы с Jupyter-ноутбуками. Платформа предоставляет помощь в написании кода на Python, SQL, R, Scala и Kotlin, чтобы вы могли продуктивно работать и писать качественный код с меньшими усилиями. Редактор Datalore обеспечивает быстрый доступ к подключенным источникам данных, автоматическим визуализациям, статистике набора данных, инструменту составления отчетов, менеджеру среды, управлению версиями и другим полезным инструментам.
Узнайте из видео, как легко создавать Jupyter-ноутбуки в Datalore:
Ноутбуки Datalore поддерживают Jupyter-формат. Благодаря этому можно загрузить существующие IPYNB-файлы и работать с ними дальше в Datalore. Кроме того, можно экспортировать ноутбуки в виде IPYNB-файлов. Обратите внимание: подключения к источникам данных и интерактивные элементы управления при этом не экспортируются.
В Datalore встроены функции анализа кода из PyCharm. Работая с Python-ноутбуками, вы можете пользоваться автодополнением кода, подсказками параметров, инспекциями, быстрыми исправлениями и рефакторингами. Все это помогает писать качественный код с меньшими усилиями.
В Datalore доступны всплывающие подсказки для любого метода, функции, пакета или класса. Вы увидите нужную информацию из документации именно там, где она вам понадобится.
Datalore поддерживает менеджеры пакетов conda и pip. Pip — быстрый бесплатный менеджер, который подходит всем пользователям, а conda предоставляется бесплатно только для некоммерческого использования.
В Datalore можно создавать ноутбуки Kotlin, Scala и R. Установить пакеты можно с помощью magic-команд, а при написании кода пользоваться возможностями автодополнения.
Используйте нативные ячейки SQL при создании запросов к подключенным базам данных. Помимо подсветки синтаксиса SQL вы можете пользоваться автодополнением кода, опирающимся на интроспекцию таблиц БД. Результат запроса сразу же передается в Pandas DataFrame, и дальше с этим набором данных можно работать на Python.
Вы можете использовать ячейки SQL для удобной отправки запросов к двумерным DataFrames и CSV-файлам из приложенных документов — точно так же, как при работе с базами данных. Просто посмотрите DataFrames ноутбука, выберите нужный и используйте его как источник для SQL-ячеек. Благодаря этой функции, можно с помощью SQL объединять данные из разных источников в один DataFrame и разбивать сложные запросы на несколько ячеек SQL.
Чтобы встроить свои переменные в ячейки Markdown, используйте двойные фигурные скобки. Переменные динамически преобразуются в значения внутри текста.
В Datalore встроен менеджер зависимостей, который обеспечивает воспроизводимость окружения. Он позволяет устанавливать новые пакеты и управлять ими, гарантируя их наличие при повторном открытии ноутбука.
Из пользовательских образов Docker можно создать несколько базовых окружений. Все зависимости, версии пакетов и настройки инструмента сборки можно сконфигурировать заранее, чтобы команда не тратила время, устанавливая и синхронизируя их вручную.
Установите пользовательский pip-совместимый пакет из Git-репозитория, добавив ветку Git в свой ноутбук.
Создайте скрипт, который будет выполняться перед запуском ноутбука. В скрипте можно указать все необходимые инструменты сборки и зависимости.
На вкладке Visualize вы найдете параметры автоматической визуализации для любого Pandas DataFrame. Графики различных типов — Point, Line, Bar, Area и Correlation — помогут быстро проанализировать данные. Если набор данных очень велик, будет автоматически сделана выборка. После этого все графики можно экспортировать в виде кода или ячеек диаграмм для дополнительной настройки.
Создавайте визуализации, используя любые пакеты. Ноутбуки Datalore поддерживают matplotlib, plotly, altair, seaborn, lets-plot и многие другие пакеты.
Создавайте готовые визуализации всего за пару кликов. Состояние ячеек доступно и другим членам команды, так что над визуализацией можно работать вместе с коллегами.
Фильтруйте и сортируйте Pandas DataFrames и результаты SQL-запросов прямо в результатах выполнения ячеек. Вы можете выбрать, какие столбцы нужно отображать, отсортировать данные в определенном столбце, отфильтровать по выражениям equals и contains и быстро перемещаться вверх-вниз по набору данных. Завершив фильтрацию и сортировку, используйте опцию Export to code cell, чтобы сгенерировать фрагмент Pandas-кода и сделать представление таблицы воспроизводимым.
Больше не нужно скачивать CSV-файлы, чтобы внести изменения в DataFrame. Просто отредактируйте содержимое ячейки в интерактивной таблице и нажмите Export to code, чтобы воспроизвести результат в ноутбуке.
На отдельной вкладке Statistics в один клик можно получить основную описательную статистику для DataFrame. Для столбцов категорий можно посмотреть распределение значений, а для числовых столбцов Datalore рассчитывает минимальное, максимальное и медианное значения, среднеквадратическое отклонение, процентили, а также показывает количество нулевых значений и статистических выбросов.
Добавляйте в ноутбуки интерактивные раскрывающиеся списки, слайдеры и поля для ввода текста, а также используйте входные значения в качестве переменных в своем коде. Визуализируйте данные с помощью ячеек диаграмм и выделяйте важные цифры в ячейках метрик.
Теперь владельцы отчетов и ноутбуков могут разрешить внешним сотрудникам загружать файлы CSV и TXT, а также изображения с локальных компьютеров. Чтобы загрузка не мешала рабочему процессу, настройте допустимые типы файлов и их предельный размер.
DataFrames можно экспортировать в существующие таблицы в базе данных прямо из ноутбука. Для настройки экспорта выберите DataFrame, целевую базу данных, схему и таблицу. Кроме того, можно настроить автоматический экспорт по расписанию.
Datalore поддерживает IPyWidgets — классический фреймворк виджетов Jupyter. Добавляйте интерактивные элементы управления с помощью Python-кода, объединяйте несколько виджетов в одной ячейке и используйте выделение в качестве переменной в следующих частях ноутбука.
Файлы CSV и TSV, представленные на вкладке Attached data, открываются в отдельной вкладке в редакторе Datalore. Там можно отсортировать значения в столбцах и разбить содержимое файла на страницы.
Редактор Datalore поддерживает файлы CSV и TSV. Можно создать новый файл с нуля или отредактировать существующий.
Открыв окна терминала прямо в редакторе и выполнив скрипты .py, можно получить доступ к агенту, среде и файловой системе с помощью стандартных bash-команд.
Просматривайте переменные ноутбука и значения встроенных параметров, не переходя в другое окно.
Создавайте контрольные точки, чтобы в любой момент можно было откатить изменения с помощью инструмента управления версиями. При просмотре контрольной точки вы увидите разницу между текущей версией ноутбука и выбранной.
Datalore позволяет запускать ноутбуки на центральном и графическом процессоре. В интерфейсе можно выбрать нужную машину. Тип и объем доступных ресурсов зависят от плана подписки. Подробнее читайте здесь.
Вы можете подключить свое серверное оборудование к Datalore и сделать его доступным через пользовательский интерфейс.
Режим Reactive принудительно использует порядок вычисления сверху вниз и выполняет перерасчет для ячеек, находящихся ниже измененной. Состояние ноутбука сохраняется после каждого выполнения ячейки, и его можно в любой момент восстановить.
Переключайтесь в режим фоновых вычислений, чтобы ноутбук работал, даже когда вы закроете вкладку браузера. Доступ к выполняющимся вычислениям можно в любой момент получить из пользовательского меню или с панели управления.
Скачайте отчеты в CSV-формате о том, сколько времени вы использовали каждый процессор: это поможет понять, каким проектам вы уделяли больше внимания.
Вы можете запускать ноутбуки по расписанию: каждый час, каждый день, раз в неделю или раз в месяц. Так опубликованные отчеты будут обновляться регулярно. Настроить расписание можно в интерфейсе или при помощи Cron-выражения. Коллеги смогут получать уведомления о результатах запуска по электронной почте.
Теперь для одного ноутбука можно создать несколько расписаний и управлять ими через интерфейс. Вы можете настроить расписания для запуска ноутбука каждый час, каждый день, раз в неделю или по определенным дням. Индивидуальная настройка расписания позволяет эффективнее распределять ресурсы и задавать время исполнения кода в зависимости от потребностей проекта.
Теперь запустить ноутбук Datalore или повторно опубликовать отчет можно, вызвав новый API. Эта функция дополняет собой запуск ноутбуков по расписанию и позволяет запустить ноутбук в произвольный момент из внешних приложений или внутренних ноутбуков Datalore. Кроме того, результаты запуска можно посмотреть в меню Scheduled run. Подробнее об использовании API — в документации.
При работе с R-ноутбуками теперь можно устанавливать пакеты из публичных и закрытых репозиториев, которые поддерживаются функцией install.packages
на вкладке Environment manager. Environment manager помогает поддерживать постоянную конфигурацию окружения при нескольких запусках ноутбука. Создав файл .Rprofile
в init.sh
или пользовательский образ агента, можно настроить пользовательский репозиторий.
В облачной версии по умолчанию используется инсталляция conda, а пользователи версии Enterprise могут настроить другое базовое окружение с помощью ядра R. После этого в результатах поиска Environment manager будут отсутствовать пакеты conda. Пример такой инсталляции
Вы можете искать нужные разделы кода или информацию по всем ноутбукам в ваших рабочих пространствах. Помимо имен ноутбуков, в новой версии можно искать имена переменных и содержимое. То, что вы ищете, будет подсвечено в результатах поиска.