안녕하세요, 저는 The Center for New Data(newdata.org)의 기술 책임자인 Chad Rosenberg입니다. 저는 인프라 운영을 이끌면서 데이터 과학자, 엔지니어 및 통계학자로 구성된 New Data의 전국 자원 봉사단을 관리합니다.
빅 데이터를 사용하여 미국의 투표 접근성을 측정하는 당사의 주력 프로그램은 전국 수만 개의 투표소에서 수백만 유권자의 대기 시간을 분석하고 이를 지역 및 개인과 연관시키고 지역마다 투표에 대한 접근 수준이 다르다는 것을 보여주는 역할을 수행합니다. 또 다른 프로그램에서는 개념적 접근 방식이 아닌 이동성 데이터를 사용하여 관심 커뮤니티를 찾습니다. 종종 소외된 커뮤니티를 투표 구역으로 더 잘 편성할 수 있는 방법을 찾으면 양극화를 줄이고 더 건강한 민주주의를 구축하는 데 도움이 됩니다.
이전 Notebook 솔루션은 유지 관리가 정말 어려웠습니다. 해결하기 어려운 몇 가지 Kubernetes 종속성 문제도 있었습니다. 또한 한 버전에서 다른 버전으로 마이그레이션하는 것은 매우 어려웠습니다. DevOps 시간은 자원 봉사 조직으로서 우리에게 매우 중요하며 Datalore가 AWS의 Kubernetes 클러스터에서 쉽게 설정할 수 있는 턴키 솔루션이라는 점에 만족감을 느낍니다. 우리에게는 문제 없이 작동하는 솔루션이 필요하며, 지원이 제공된다면 작업이 더 쉬워집니다.
“Datalore를 통해 우리 팀은 신속하게 프로토타입을 만들고 모든 팀원과 결과를 공유할 수 있습니다. 조직 전체의 협업을 위한 획기적인 도구가 되었습니다.”
— Chad Rosenberg, 기술 책임자, The Center for New Data
우리는 Datalore에 약 15개의 시트를 가지고 있으며 팀원 대부분이 데이터 품질과 관련된 작업을 수행합니다. 데이터 품질 팀은 Datalore를 사용하여 Apache Airflow 일정 결과에서의 문제를 해결하고, 탐색적 분석을 수행하며, 데이터에 대한 보고서를 작성합니다.
현재 Snowflake를 주 데이터베이스로 사용하고 있습니다. 우리는 데이터 공급자로부터 약 300GB의 익명화된 휴대폰 위치 데이터를 수집하고 Apache Airflow를 사용하여 주요 지표를 계산한 다음, 결과 데이터세트를 Snowflake에 입력합니다.
Datalore는 파이프라인 결과 디버깅, 웹훅 시도, 자동 플로팅 기능을 통한 빠른 데이터 시각화하는 등 Airflow에서 할 수 없는 데이터 작업 방식을 제공합니다. Datalore의 네이티브 Snowflake 커넥터와 pandas의 프로그래밍 방식 커넥터를 사용할 수 있으므로 공유 Notebook에서 작업할 때 확실히 시간을 절약할 수 있습니다.
보고서 게시 기능도 마음에 듭니다. 이를 통해 더 많은 관련자들이 우리가 수행한 작업의 결과를 볼 수 있습니다. 우리는 이러한 관련자들이 데이터를 다운로드할 수 있는 기능을 제공하는 대신 보고서를 빠르게 정리하고 게시하여 "여기 URL이 있습니다"라고 간단히 말할 수 있습니다.
쿼리 어셈블을 시작할 때 네이티브 SQL 셀과 Snowflake 연결을 사용하기가 매우 쉽습니다. SQL에서 루프를 실행해야 할 때 pandas를 사용하고 여기에 SQL 문자열을 복사하여 붙여넣습니다.
누군가 SQL 셀을 사용하여 데이터를 가져오고 결과 데이터 프레임을 준비합니다. 그런 다음 다른 팀 구성원이 동일한 Notebook에서 데이터 조사를 시작하고 데이터 품질 보고서를 작성한 다음 결과를 이전 실행과 비교합니다.
Datalore를 통해 우리 팀은 신속하게 프로토타입을 만들고 모든 팀원과 결과를 공유할 수 있습니다. 조직 전체의 협업을 위한 획기적인 도구가 되었습니다.
아직 Datalore에서 중앙 집중식 인증을 구성하지는 못했지만 몇 달 안에 이 작업에 착수할 것입니다. 또한 Kubernetes(K8s) 클러스터에서 수평 확장을 처리하여 컴퓨팅 시간을 절약하고자 합니다.
그 동안 우리는 올 가을 있을 중간 선거를 분주하게 준비하고 있으며 Datalore는 이러한 과정에서 필수적인 부분이 될 것입니다.
Hunters 위협 제거 전문가, Netanel Golani
Hunters의 데이터 과학 팀은 Datalore를 사용하기 시작한 지 불과 한 달 밖에 지나지 않았지만 특히 수많은 고객의 데이터 소스를 처리하는 일상적 워크플로에서 생산성과 유용성이 개선된 것을 이미 체감하고 있습니다.
Surya Rastogi, 수석 데이터 과학자, Chainalysis
우리에게 가장 큰 과제 중 하나는 블록체인 분야가 빠르게 확장되고 있고 계속해서 쏟아져 나오는 새로운 데이터를 수집하고 분석해야 한다는 것입니다. 회사로서 우리는 많은 데이터 수집 및 처리 역량을 가지고 있으며 계속 성장할 것으로 기대합니다.
Moreno Raimondo Vendra, TrueLayer 수석 머신러닝 엔지니어
Datalore을 이용해 보안 요구 사항을 충족하면서 인체 공학적으로 데이터에 액세스할 수 있게 되었고, 이는 획기적인 전환점이 되었습니다. 그 결과, 머신러닝 팀 내에서뿐만 아니라 다른 관련자와도 훨씬 더 쉽게 협업할 수 있었습니다.