업계: 블록체인

사용한 JetBrains 제품: Datalore

조직 규모: 500-1000

국가: 미국

Chainalysis

Chainalysis는 70개국 이상의 정부 기관, 거래소, 금융 기관, 보험사 및 사이버 보안 회사에 데이터, 소프트웨어, 서비스 및 연구를 제공합니다. 전 세계적으로 가장 이목을 끌었던 사이버 범죄 사례를 해결하고 암호화폐에 대한 소비자 액세스를 안전하게 확장하는 데 사용된 조사, 규정 준수 및 위험 관리 도구들이 당사의 데이터 플랫폼을 기반으로 합니다.

Chainalysis가 블록체인 분석에 Datalore를 활용하는 방법

Chainalysis 소개

자기 소개를 부탁드려도 될까요?

안녕하세요. 저는 Chainalysis의 선임 데이터 과학자인 Surya Rastogi입니다. 다양한 블록체인 데이터를 분석하고 회사 내 여러 팀에 분석 도구를 제공하는 일을 주로 맡고 있습니다. 현재는 연구 도구 개발 프로젝트를 이끌고 있습니다.

Chainalysis는 어떤 프로젝트를 추진하고 있나요?

Chainalysis는 70개국 이상의 정부 기관, 거래소, 금융 기관, 보험사 및 사이버 보안 회사에 데이터, 소프트웨어, 서비스 및 연구를 제공합니다. 전 세계적으로 가장 이목을 끌었던 사이버 범죄 사례를 해결하고 암호화폐에 대한 소비자 액세스를 안전하게 확장하는 데 사용된 조사, 규정 준수 및 위험 관리 도구들이 당사의 데이터 플랫폼을 기반으로 합니다.


해결해야 할 문제

Datalore 또는 대체 솔루션을 찾게 된 이유는 무엇인가요? 어떤 문제에 직면했었나요?

우리에게 가장 큰 과제 중 하나는 블록체인 분야가 빠르게 확장되고 있고 계속해서 쏟어져 나오는 새로운 데이터를 수집하고 분석해야 한다는 것입니다. 회사로서 우리는 많은 데이터 수집 및 처리 역량을 가지고 있으며 계속 성장할 것으로 기대합니다.


"Datalore는 모든 데이터에 대한 최상위 인터페이스를 제공합니다. 여기서 데이터 과학자는 다양한 데이터 소스를 일일이 살펴보고 이를 결합하여 통찰력을 도출할 수 있죠."

— Surya Rastogi, 수석 데이터 과학자, Chainalysis


Datalore 경험

팀에서 누가 Datalore를 사용하나요?

전체적으로 Chainalysis에는 35명의 사람들이 Datalore에 액세스할 수 있습니다. R&D 및 심층 기술에 중점을 둔 연구 부서는 Datalore 설치를 관리하고 다른 데이터 과학 기능에 대한 액세스를 제공합니다. 제품 데이터 과학자는 제품에 들어갈 데이터를 분석하고 이 데이터를 감사하여 잠재적인 이탈과 특이 사항을 찾습니다. 데이터 과학 엔지니어는 최근 Scheduling 기능이 도입된 이후 어느 때보다 Datalore를 활발하게 사용하기 시작했습니다. 일반적으로 이들 엔지니어는 Airflow DAG를 작성하지만 일부 사용 사례에는 예약 실행 기능으로 전환했습니다.

귀하의 팀은 지난 1년 동안 상당히 성장했습니다. Datalore를 채택한 후 온보딩 프로세스가 변경되었나요?

Datalore 덕분에 온보딩 프로세스가 성숙해지고 간소화되었습니다. 이전에는 문서가 Git 저장소에 분산되어 있고 autodoc 웹페이지를 사용했지만 이제는 Datalore를 통해 신규 직원에게 "시작하기" Notebook을 제공하고 이를 복사하여 사용하도록 수 있습니다. 또한 정적 보고서에는 코드 셀을 포함시킬 수 있으므로 분석가가 예제 스니펫을 복사하여 붙여넣을 수 있는 문서 보고서를 쉽게 작성할 수 있습니다.


"Datalore는 온보딩의 껄끄러움을 줄이고 워크플로를 문서화하는 데 정말 유용했습니다."


Datalore에 처음 온보딩할 때는 신규 작업자 온보딩 시 실시간 협업 기능을 훨씬 더 많이 사용할 것이라고 생각했지만 이상하게도 그렇지 않았습니다. 효과적인 몹 프로그래밍으로 실시간 협업에서 다자 호출을 이용하기는 하지만 대부분의 상황에서 코드를 주도하는 것은 한 사람입니다.

어떤 종류의 데이터로 작업하나요?

우리는 S3 또는 minIO와 같은 저장소에 바이너리 "스크래치" 데이터를 두고 있으며 데이터 웨어하우스 및 레이크하우스의 업스트림에 데이터 레이크 레이어로 S3를 활용합니다. Postgres와 같은 기존의 SQL 데이터베이스도 많이 가지고 있습니다. 처음에는 기능으로 제공되지 않았던 데이터베이스 통합이 Datalore에 정말 멋지게 추가되었습니다. 이 기능이 개발되면서 많은 SQL 분석가가 DataGrip에서 사용하던 기능을 Datalore에서 액세스할 수 있게 되었기 때문에 이를 더 많이 활용할 수 있게 되었습니다.

시작할 때는 Datalore가 AWS에 설치되지 않았지만 Athena와 같이 이미 활용하고 있던 일부 서비스의 이점을 누릴 수 있도록 AWS로 마이그레이션했습니다. 그 이후로 모든 데이터 소스와 추가적인 AWS 스토어까지도 추가하기가 매우 쉬워졌습니다.

작업 결과를 어떻게 공유하나요?

작업 결과를 공유할 때 주로 보고서 기능을 활용합니다. 이를 통해 마크다운으로 워크플로에 주석을 달 수 있으므로 특정 결과를 얻기 위해 적용된 데이터 소스와 변환을 살펴보는 보고서를 게시할 수 있습니다.

또한 Datalore를 활용하여 분석 데이터베이스에 작업 결과를 입력하기 시작했습니다. 지금까지 우리는 이러한 사용 사례에 Airflow를 활용했지만 Scheduling이 추가되면서 Datalore를 대신 사용할 수 있게 되었습니다. 일부 데이터베이스 입력을 처리하는 DAG가 있었지만 매시간 실행되는 Datalore Notebook으로 이를 교체했습니다. 처음에는 Datalore를 데이터 소스에 대한 읽기 전용 도구로 주로 사용했지만 Scheduling을 추가한 이후로는 일부 데이터베이스를 Datalore를 통해서만 입력하기 시작했습니다. 조사를 시작한 다음 Airflow용 DAG로 코드를 마이그레이션하는 방법보다는 이 워크플로가 더 쉽습니다.


"새로운 기능인 Scheduling을 개인적으로 가장 좋아합니다."


마지막으로, 영역별 분석을 수행하는 조사원과 분석가가 있습니다. 이들이 수행한 작업은 동료에게 대화형 보고서로 게시되어 작업 수행을 위한 분석 "실행서"로 공유됩니다. 유사한 분석이 필요할 때마다 링크를 공유하기만 하면 보고서를 재사용할 수 있습니다.

귀하의 팀이 협력하는 방식의 예를 들어 주시겠습니까?

우리의 핵심 연구 팀에는 프로젝트 기반 그룹이 있습니다. 이들 그룹은 모두 Datalore에서 공유 Notebook을 열고 함께 검토하는 회의를 갖습니다. 앞서 언급했듯이 데이터 엔지니어는 최근에 데이터 과학자들과 협력하기 시작했고 예약 실행 기능을 사용하여 데이터를 입력하고 있습니다.

다음 단계

첫째, 데이터 과학 인프라의 일부를 지속적으로 통합하고 있습니다. Datalore를 사용하면 nbviewer(Notebook을 표시하기 위해) 및 Google Colab(Notebook에서 공동 작업을 위해)와 같은 도구가 필요하지 않습니다. 현재는 Scheduling 기능을 사용하여 일부 Airflow 사용 사례를 Datalore에 통합하는 작업을 시작했습니다.

둘째, 처음에 Chainalysis에 Datalore를 소개했을 때 데이터 과학에 Python을 사용하는 사람들과 SQL에 보다 중점을 두는 분석가들을 한데 모았습니다. 향후에는 비즈니스 인텔리전스 사용 사례(예: 비즈니스 대시보드)까지 처리하도록 설치를 확장할 수도 있습니다.

마지막으로, 데이터 과학을 위한 UI에 초점을 맞추기 시작했고 가장 중요한 대화형 보고서 및 기타 대시보드에 대한 링크가 포함된 내부 도구를 구축했다는 점도 빼놓을 수 없습니다. 우리는 이것을 Datalore에 포함할 수 있었고, 이를 통해 다양한 데이터 과학 프런트엔드 간에 탐색 iframe을 생성할 수 있었습니다.

유사한 고객 후기

Hunters

Hunters 위협 제거 전문가, Netanel Golani

Hunters의 데이터 과학 팀은 Datalore를 사용하기 시작한 지 불과 한 달 밖에 지나지 않았지만 특히 수많은 고객의 데이터 소스를 처리하는 일상적 워크플로에서 생산성과 유용성이 개선된 것을 이미 체감하고 있습니다.

The Center for New Data

Chad Rosenberg, 기술 책임자, The Center for New Data

Datalore는 파이프라인 결과 디버깅, 웹훅 시도, 자동 플로팅 기능을 통한 빠른 데이터 시각화하는 등 Airflow에서 할 수 없는 데이터 작업 방식을 제공합니다. Datalore의 네이티브 Snowflake 커넥터와 pandas의 프로그래밍 방식 커넥터를 사용할 수 있으므로 공유 Notebook에서 작업할 때 확실히 시간을 절약할 수 있습니다.

TrueLayer

Moreno Raimondo Vendra, TrueLayer 수석 머신러닝 엔지니어

Datalore을 이용해 보안 요구 사항을 충족하면서 인체 공학적으로 데이터에 액세스할 수 있게 되었고, 이는 획기적인 전환점이 되었습니다. 그 결과, 머신러닝 팀 내에서뿐만 아니라 다른 관련자와도 훨씬 더 쉽게 협업할 수 있었습니다.

고객 후기 더보기