데이터 연결

CSV 파일, S3 버킷 또는 SQL 데이터베이스로 작업하는 모든 경우에 Datalore는 하나의 Notebook에서 여러 데이터 소스의 데이터에 쉽게 액세스하고 쿼리할 수 있는 방법을 제공합니다.

아래의 데이터 연결 비디오 개요를 시청하세요.

내부 스토리지

Datalore는 영구 내부 스토리지와 함께 제공되므로 Notebook 및 기타 작업 아티팩트에 빠르게 액세스할 수 있습니다.

Notebook 파일

로컬 파일 및 폴더 업로드, 링크를 통해 데이터 가져오기, 코드에서 파일 다운로드 등 어떤 작업을 수행하든 모든 데이터가 Notebook 파일에 저장됩니다. 공동 작업자와 Notebook을 공유할 경우 Notebook 파일이 자동 공유됩니다.

작업 공간 파일

작업 공간 파일을 활용하여 여러 대의 Notebook에서 데이터 세트를 공유해 보세요. 공유 작업 공간에서 작업 시 데이터 세트를 한 번 업로드하면 모든 작업 공간 에디터에서 해당 세트를 이용할 수 있습니다.

UI에서 데이터베이스 연결

클릭 몇 번만으로 에디터에서 바로 Notebook을 데이터베이스와 연결할 수 있으며, 환경에 자격 증명을 전달하지 않고도 네이티브 SQL 셀로 데이터 쿼리를 수행할 수 있습니다.

Datalore는 Amazon Redshift, Azure SQL Database, MariaDB, MySQL, Oracle, PostgreSQL, Snowflake 등에 사용자 및 비밀번호 인증을 지원합니다. 데이터베이스 연결과 관련한 구체적인 질문이 있는 경우 datalore-support@jetbrains.com으로 문의해주세요.

내부 검사를 위한 DB 스키마 제한

Datalore에서 데이터베이스 연결을 생성할 때 내부 검사를 위해 특정 데이터베이스 스키마와 테이블을 선택합니다. 그러면 초기 내부 검사 속도가 빨라지고 스키마 탐색이 더 쉬워집니다.

사용자 지정 JDBC 드라이버 지원

이제 관리자는 Datalore Enterprise에서 기본적으로 지원되지 않는 데이터베이스에 연결하기 위해 사용자 지정 JDBC 드라이버를 추가할 수 있습니다. Admin(관리자) 패널 | Miscellaneous(기타)로 이동하고 New custom database driver(새 사용자 지정 데이터베이스 드라이버) 대화상자를 사용하여 로컬 시스템에서 드라이버 파일을 선택하고 업로드합니다.

SSH 터널링 지원

Datalore에서 SSH 터널링을 사용하여 원격 데이터베이스에 연결합니다. 그러면 Datalore와 게이트웨이 서버 간에 암호화된 SSH 연결이 생성됩니다. SSH 터널을 통해 연결하면 공용 네트워크에 노출되지 않은 데이터베이스에 연결할 수 있습니다.

S3 버킷 마운트

자격 증명을 환경에 전달하지 않고 AWS S3 및 GCS 버킷을 폴더로서 Notebook에 바로 마운트합니다.

코드에서 데이터 연결

사용자 인터페이스를 통해 지원되는 데이터 소스 연결 외에도 Jupyter Notebook의 일반적인 작업과 마찬가지로 코드에서 버킷, 데이터베이스 또는 데이터 스토리지를 연결할 수 있습니다.

SQL 셀

네이티브 SQL 셀을 추가하여 데이터베이스에 연결 후 쿼리할 수 있습니다. SQL 구문 강조 표시 기능뿐 아니라, 내부 검사한 데이터베이스 테이블을 기반으로 한 코드 완성 기능도 지원됩니다. 쿼리 결과는 자동으로 pandas DataFrame에 전송되며 Python에서 데이터 세트 작업을 계속 수행할 수 있습니다.

SQL 셀을 통해 DataFrame 쿼리

SQL 셀을 사용하면 데이터베이스에서와 마찬가지로 첨부된 문서에서 2D DataFrame과 CSV 파일을 쉽게 쿼리할 수 있습니다. Notebook에서 DataFrame을 찾아 선택하고 이를 SQL 셀의 소스로 사용하기만 하면 됩니다. 이 기능을 사용하면 SQL을 사용하여 다양한 소스의 데이터를 단일 DataFrame으로 병합하거나 복잡한 쿼리를 일련의 SQL 셀로 분할할 수 있습니다.

매개변수화된 SQL 쿼리

Datalore에서 이제 SQL 셀 내부의 Python 코드에 정의된 변수(문자열, 숫자, 부울, 목록)를 사용할 수 있습니다. 이를 통해 매개변수화된 쿼리로 대화형 보고서를 작성할 수 있고, SQL 코드 작성을 최소화하며, 보고서 사용자에게 개선된 UI를 제공할 수 있습니다.

분리된 환경에서 데이터베이스 작업

이 기능을 사용하면 분리된 환경에서도 데이터베이스 작업을 수행할 수 있습니다. 인터넷 연결 없이 SQL 코드를 실행하여 Notebook과 데이터베이스 간에 교환되는 정보가 정확하고 일관되게 유지되도록 하고 데이터 손상이나 손실 가능성을 최소화합니다.

작업 공간 전반에 걸쳐 데이터 연결 복제

이제 한 작업 공간에서 다른 작업 공간으로 데이터베이스 연결을 복제할 수 있어 반복적인 설정이 필요하지 않습니다. 자격 증명을 제외하고 설정만 복사하여 시간을 절약하세요. 한 번에 여러 작업 공간을 선택할 수도 있습니다.

SMB/CIFS 스토리지

File system(파일 시스템) 뷰를 통해, 또는 Notebook 인터페이스에서 바로 작업 공간에 SMB/CIFS 스토리지를 추가하세요. Notebook 환경을 벗어나지 않고도 SMB 폴더 콘텐츠에 액세스하고 수정할 수 있습니다.