데이터 과학
공유하기:
이 섹션의 질문은 비즈니스 인텔리전스, 데이터 분석, 데이터 엔지니어링, 머신 러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자/비즈니스 분석가인 개발자에게만 표시되었습니다.
상당수의 응답자가 다른 활동과 함께 데이터 과학 업무를 동시에 책임지고 있는 것으로 보입니다. 이러한 결과는 해당 분야의 대중화가 진행 중임을 시사하며, 이는 데이터 과학 시장의 성장을 위한 잠재적 기회를 의미합니다.
PyCharm
Python, 과학 라이브러리, 대화형 Jupyter Notebook, Anaconda, SQL 및 NoSQL 데이터베이스 등에 대한 뛰어난 지원을 통해 데이터 파이프라인 구축, 데이터 분석, 프로토타이핑 및 ML 모델 배포에 이용되는 올인원 Python IDE입니다.
대다수의 데이터 과학 전문가는 데이터 탐색 및 표현에 실질적으로 입증된 플롯을 사용하는 데 가치를 둡니다. 이러한 유형의 차트는 데이터 수집, 탐색적 데이터 분석, 데이터 조정, ML Ops 등 다양한 데이터 관련 작업에 폭넓게 사용됩니다.
Datalore
JetBrains의 Datalore는 브라우저에서 바로 액세스할 수 있는 팀 협업용 데이터 과학 및 분석 플랫폼입니다. Datalore Notebook은 Jupyter와 호환되며 Python, SQL, R, Scala Notebook에 대한 스마트 코딩 지원은 물론, 노 코드 시각화와 데이터 랭글링도 제공합니다. Datalore의 보고서 빌더를 사용하면 코드와 실험으로 가득 찬 Notebook을 명확한 데이터 기반의 스토리로 바꿀 수 있습니다. 팀은 Notebook을 공유하고, 실시간으로 함께 편집하고, 작업 공간에서 프로젝트를 구성할 수 있습니다.
모든 팀과 부서의 거의 절반이 전담 데이터 엔지니어 또는 머신 러닝 엔지니어를 두고 있습니다.
데이터 과학자, 데이터 엔지니어, 머신 러닝 엔지니어와 같은 전문 직종은 비교적 최근에 고용 시장에 편입되었습니다. 많은 응답자가 관련 분야에서 이러한 직종으로 이직하고 있어 독학이나 온라인 과정을 통해 새로운 기술을 습득해야 할 필요성이 대두됩니다.
대다수의 데이터 과학 전문가는 Notebook 버전을 관리하지 않지만 상당한 비율(41%)이 그렇게 하고 있으며 그들 대부분은 버전 관리를 위해 Git 또는 GitHub를 선택합니다.
Jupyter Notebook의 다양한 구현은 탐색적 데이터 분석, 데이터 실험 및 데이터 쿼리, 모델 프로토타입 제작을 포함한 일반적인 사용 사례를 포함해 데이터 과학에서 폭넓게 사용됩니다. 데이터 과학 전문가의 약 40%가 Jupyter Notebook을 사용하여 작업 결과를 나타내지만, 흥미롭게도 많은 사람들(거의 50%)이 Jupyter Notebook을 사용하는 데 작업 시간의 10~20%만 소비합니다.
대다수가 로컬 파일을 사용하지만 SQL 데이터베이스를 사용하는 비율은 지난 1년 동안 10% 증가하여 데이터 과학에서 SQL의 중요성을 잘 보여주었습니다.
설문조사에 참여한 대부분의 데이터 과학자는 사용자 정의 수집 데이터를 처리하며 가장 널리 사용되는 데이터 유형은 트랜잭션 데이터, 시계열 데이터, 이미지 및 머신 생성 데이터입니다. 흥미롭게도, 30%는 실제 사건에 의해 생성된 데이터가 아닌 인위적으로 만들어진 데이터인 합성 데이터를 사용하여 작업합니다.
전체 응답자의 약 40%가 머신 러닝 또는 딥러닝 모델을 학습했습니다. 하지만 데이터 작업을 주요 활동으로 생각하는 사람들 사이에서는 이 수치가 60% 이상으로 뛰어 오릅니다. 이러한 업계 동향은 예측 모델링이 데이터 작업의 핵심 측면으로 자리잡고 있음을 의미합니다.
데이터 과학 전문가 중 절반은 한 달에 한 번 이상 머신 러닝 모델을 재학습하거나 업데이트하지만 대부분은 이 작업을 위해 한 달에 20시간 미만을 소비합니다.
데이터 과학 전문가의 대다수(81%)가 모델 학습에 GPU를 사용합니다. 그래픽 프로세서를 효율적으로 사용하면 학습 속도가 빨라지고 모델 성능이 향상되므로 연구자와 데이터 전문가에게 점차 매력적인 리소스로 자리잡고 있습니다. 이는 또한 머신 러닝 업계에서 기술 혁신의 중요성과 관련성을 잘 드러내줍니다.
더 높은 컴퓨팅 성능은 머신 러닝 작업에서 분명히 나타나는 추세입니다. 현재, 데이터 과학 전문가의 거의 80%가 16GB 이상의 VRAM을 사용하는 반면, 8GB를 사용하는 전문가의 비율은 지난 1년 동안 6% 감소했습니다.
회귀 및 트리 기반 방법과 같은 핵심 머신 러닝 알고리즘은 여전히 널리 사용되고 있지만 상당수의 데이터 과학 전문가들은 신경망도 채택하고 있습니다. 트랜스포머 신경망의 인기 상승과 사용자 친화성은 응답자의 30%가 NLP 작업에 참여하는 이유를 설명할 수 있습니다. 흥미롭게도, 참가자 중 24%만이 업무에 통계 테스트를 사용한다고 보고했는데, 이는 머신 러닝과 딥 러닝이 기본 데이터 기술로서 고전적인 통계 기법을 능가했 음을 시사합니다.
Amazon 서비스는 가장 인기 있는 엔터프라이즈 클라우드 솔루션으로 두각을 나타냈습니다. 놀랍게도 전년도에 비해 엔터프라이즈 머신 러닝 솔루션 채택이 크게 증가했습니다(10% 이상).
TensorFlow는 scikit-learn과 PyTorch보다 인기가 약간 앞서 있으며 Keras와 XGBoost도 탄탄한 채택률을 보이고 있습니다. 흥미롭게도, 응답자의 상당수(19%)는 특정 프레임워크를 사용하지 않는다고 답했습니다.
TensorBoard는 가장 일반적으로 사용되는 도구로 23%의 점유율을 차지하고 MLFlow가 10%, WandB가 7%로 뒤를 잇고 있습니다. 그러나 데이터 과학 전문가의 2/3는 모델 학습 실험을 추적하기 위한 특정 도구를 사용하지 않습니다.
머신 러닝과 AI는 일상 비즈니스 활동에서 중요한 부분이 되었기 때문에 응답자의 거의 절반이 자신이 사용하는 소프트웨어에 통합된 다양한 AI 기반 기능을 사용한다는 사실은 놀랄 일이 아닙니다.
데이터 품질은 데이터를 다루는 전문가와 조직의 일반적인 과제이며, 이들 중 거의 절반이 데이터 준비에 전체 시간의 30% 이상을 투자한다고 나타낼 정도입니다. Anaconda 연구에서 도 데이터 정리가 데이터 전문가의 워크플로에서 가장 시간이 많이 걸리는 측면으로 떠오르고 있음을 확인했습니다. 응답자 중 거의 절반이 이러한 유형의 작업을 처리하기 위해 통합 개발 환경(IDE)을 선택했습니다.
읽어주셔서 감사합니다!
이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.
질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.