데이터 과학

공유하기:

이 섹션의 질문은 비즈니스 인텔리전스, 데이터 분석, 데이터 엔지니어링, 머신러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자/비즈니스 분석가인 개발자에게만 표시되었습니다.

본인에게 데이터 과학, 데이터 분석, 데이터 엔지니어링 또는 머신러닝은 어떤 형태의 활동인가요?

응답자 중 상당수는 데이터 과학 직책을 다른 활동과 함께 수행합니다. 이러한 결과는 데이터 과학 업무에 대한 접근성이 개선되었으며, 시장 성장의 잠재력이 있음을 시사합니다.

다음 중 어떤 활동에 참여하고 계신가요?

JetBrains는 팀을 위한 데이터 과학 협업 플랫폼인 Datalore를 제작했습니다. Datalore는 데이터 전문가를 위한 뛰어난 코딩 환경을 제공하고, 코딩이 불필요한 자동화 작업을 지원하여 데이터 탐색 및 시각화 워크플로에 활용 가능합니다. 즉, 기술직 외의 사용자도 주요 데이터 팀과 동일한 도구를 활용해 임시 보고서 작성 및 데이터 시각화 작업을 할 수 있습니다.

데이터 과학, 머신러닝 또는 데이터 엔지니어링을 어떻게 학습하셨나요?

데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어와 같은 전담 데이터 전문가는 비교적 새로운 직책입니다. 응답자 중 다수가 인접 분야의 직무 경험 및 교육을 바탕으로 해당 직책을 맡게 되었기에, 별도의 학습 또는 온라인 과정을 통해 실력을 키워야 했습니다. 전통적으로 STEM 대학원 학위가 데이터 과학 또는 머신러닝 분야로 진출하기 위한 가장 일반적인 경로였으나, 지난 7년간 추세로 볼 때 학사 학위만으로 이 분야에 진출한 사람의 비율은 2015년 20%에서 2021년 31%로 증가했습니다. 데이터 기술에 특화된 새로운 학부 프로그램 졸업자 수가 증가함에 따라, 정규 교육을 통해 데이터 관련 기술을 습득한 사람들에게 유리한 방식으로 결과가 바뀌는 것을 확인할 수 있습니다.

데이터 과학 또는 데이터 분석 작업에 어떤 IDE 또는 에디터를 사용하시나요?

Jupyter Notebook은 데이터 과학 및 데이터 분석 작업 시 선호하는 에디터로 선정되었으며, 응답자의 약 40%가 해당 활동에 Notebook을 사용한다고 답했습니다. 데이터 수집, 시각화, 탐색적 데이터 분석 또는 머신러닝 모델링을 수행하는 응답자 사이에서 이 비율은 훨씬 증가하여 무려 70%가 Jupyter Notebook을 사용한다고 응답했습니다.

최근 조사 결과를 통해 이 주제를 자세히 알아보세요. 2019년부터 2020년까지 Python 3와 Python 2 Notebook 수는 각각 87%, 12%씩 증가했습니다.

업무 시간 중 Notebook에 할애하는 시간은 얼마나 되나요?

Notebook을 어떤 용도로 사용하시나요?

Jupyter Notebook은 여전히 가장 인기 있는 도구 중 하나로 응답자의 42%를 차지합니다. 주요 업무 활동에 데이터 인용 작업이 포함된다는 응답자 중 50% 이상이 Jupyter Notebook을 사용합니다. Notebook은 주로 데이터 탐색 및 모델 프로토타입 생성과 같은 탐색 작업에 사용됩니다. 그러나 주요 업무로 데이터 전문가 업무를 담당한다는 사용자 중에서도 근무 시간의 40% 이상 동안 Notebook을 사용한다는 응답자는 소수에 불과합니다.

Notebook 버전을 관리하시나요?

어떤 버전 관리 도구를 사용하시나요?

Notebook 버전 관리를 수행하는 응답자의 비율은 상당히 높습니다. 즉, 데이터 전문가가 Notebook을 유지하고 관리해야 하는 코드로 간주한다는 점에서 좋은 신호입니다. Notebook 버전 관리에 가장 많이 사용되는 도구는 Git과 GitHub입니다.

Git 명령줄 인터페이스(CLI)에서 Jupyter Notebook 버전을 관리하기는 어려울 수 있습니다. 다행히 DataSpell은 Git 작업을 위한 다양한 기능을 제공하므로, Git 명령어를 하나도 기억하지 않아도 저장소 설정, Notebook 추가 및 푸시, Notebook 커밋 간 차이점 표시 등 핵심 작업을 UI를 활용해 손쉽게 수행할 수 있습니다. DataSpell에서 Jupyter Notebook으로 Git을 사용하는 방법은 이 글에서 자세히 알아보세요.

어떤 유형의 데이터 소스를 사용하시나요?

SQL 데이터베이스는 로컬 파일을 제외하고 데이터 전문가들이 가장 많이 사용하는 데이터 소스입니다.

연구 결과를 발표하기 위해 어떤 도구를 사용하시나요?

Datalore를 사용하면 순식간에 Jupyter Notebook을 멋진 데이터 앱으로 전환할 수 있습니다. 캔버스의 셀을 정렬하고 결과를 정적 또는 대화형 모드로 게시하세요. 관계자가 링크를 통해 보고서에 액세스할 수 있습니다.

보고서 보기

어떤 방법과 알고리즘을 사용하시나요?

회귀 및 트리 기반 방식과 같은 핵심적인 머신러닝 학습 알고리즘은 꾸준히 광범위하게 사용되고 있습니다. 하지만 대다수의 응답자는 신경망, 특히 트랜스포머 아키텍처도 사용합니다. 사용 편의성 개선 및 트랜스포머 네트워크 사용자 증가는 응답자의 4분의 1 이상이 NLP 작업을 수행한다고 보고한 이유와 관련이 있을 수 있습니다. 흥미롭게도 응답자의 5분의 1만이 업무의 일환으로 통계적 테스트를 활용한다고 응답했습니다. 이러한 결과는 머신러닝 및 딥러닝이 핵심 데이터 기술로서 기존 통계의 위치를 차지하고 있음을 시사합니다.

어떤 머신러닝 프레임워크를 주로 사용하시나요?

TensorFlow는 모든 응답자에게 가장 인기 있는 딥러닝 프레임워크지만 주요 업무 활동으로 데이터 작업을 수행하는 응답자의 경우 TensorFlow와 PyTorch를 동일하게 사용했습니다. Scikit-learn은 가장 인기 있는 머신러닝 라이브러리인 반면, XGBoost 및 LightGBM 등 트리 기반 모델링을 위한 전문 패키지 및 프레임워크는 소수의 응답자만이 사용하는 것으로 확인되었습니다.

어떤 엔터프라이즈 머신러닝 솔루션을 사용하시나요?

Amazon 서비스는 가장 많이 사용되는 엔터프라이즈 클라우드 솔루션입니다.

귀하를 포함하여 데이터 팀의 팀원은 몇 명인가요?

응답자 중 대다수(70%)는 한 팀이 10명 이하로 구성된 소규모 그룹에서 근무합니다. 5명 중 1명은 15명 이상의 데이터 전문가로 구성된 팀에서 근무합니다.

팀 또는 데이터 부서에 전담 데이터 엔지니어 직책이 있나요?

거의 50%에 가까운 팀 또는 부서에 전담 데이터 엔지니어 직책이 있습니다.

팀 또는 데이터 부서에 전담 머신러닝 엔지니어 직책이 있나요?

응답자의 50% 이상이 팀에 전담 데이터 엔지니어 또는 머신러닝(ML) 엔지니어가 있다고 답했습니다. 데이터 엔지니어와 ML 엔지니어의 업무 범위는 회사에 따라 상당한 차이가 날 수 있으므로 해당 직책을 맡은 경우 모델 배포 및 데이터 파이프라인 관리 등 머신러닝과 관련된 유사 작업도 담당할 수 있습니다. 물론 팀 규모가 클수록 직원이 해당 작업 중 한 가지만 담당할 가능성이 높아집니다. 1~2명으로 구성된 데이터 팀 응답자의 80% 이상은 전담 데이터 엔지니어나 ML 엔지니어가 없다고 답한 반면, 15명 이상으로 구성된 데이터 팀의 경우 전담 데이터 엔지니어 및 전담 ML 엔지니어가 있다고 응답한 비율은 각각 79%, 65%였습니다.

머신러닝 또는 딥러닝 모델 훈련을 수행하시나요?

응답자 중 머신러닝 또는 딥러닝 모델을 훈련한다는 응답의 수치는 절반에 약간 못 미쳤습니다. 주요 업무 활동으로 데이터 작업을 수행한다고 응답한 경우 이 수치가 60%까지 증가합니다. 이 결과는 예측 모델링이 업계에서 데이터 작업의 핵심 요소로 자리 잡고 있다는 점을 시사합니다.

GPU를 사용하여 모델을 훈련하나요?

머신러닝 작업 시 일반적으로 VRAM은 얼마나 필요한가요?

대부분의 응답자는 GPU를 사용하여 머신러닝 또는 딥러닝 모델을 훈련한다고 답했습니다. VRAM 요구 사항은 응답자가 데이터 작업을 수행하는 방식에 따라 다릅니다. VRAM이 8GB면 충분하다고 답한 응답자는 취미나 교육 목적으로 데이터 작업을 수행하는 응답자 중 40%인 반면, 주요 업무 활동으로 데이터 작업을 수행한다고 응답한 경우에는 18%에 불과했습니다.

매달 모델 훈련에 할애하는 시간은 얼마나 되나요?

대부분의 응답자는 모델 훈련에 할애하는 시간이 일주일에 최대 20시간이라고 답했습니다. 야간에 모델을 훈련하는 시간도 이 수치에 포함될 수 있습니다. 응답자 중 거의 1/3은 모델 훈련에 할애하는 시간이 일주일에 5시간 이하입니다. 이 결과는 데이터 과학 업무에서 모델 훈련의 비중이 상대적으로 길지 않으며, 대부분의 업무 시간은 데이터 준비와 탐색에 소요된다는 점을 보여준 이전 결과와 상통하는 면이 있습니다.

데이터 과학 작업 시 어떤 컴퓨팅 리소스를 사용하시나요?

Notebook에서 주로 수행하는 활동은 데이터 탐색 및 시각화이며, 대부분 응답자가 로컬 파일로 작업을 수행한다는 응답과 일관되게, 대부분의 응답자는 로컬 리소스를 사용하여 데이터 과학 업무를 완료합니다. 놀라운 점은 응답자가 데이터 작업을 수행하는 방식에 따라 결과가 크게 다르지 않다는 사실입니다. 데이터 작업이 주요 업무의 일환인 사용자도 취미나 교육 목적으로 데이터 작업을 수행하는 사용자만큼 로컬 리소스를 활용할 가능성이 높습니다.

모델 학습 실험을 추적하는 데 어떤 특정 도구를 사용하시나요?

응답자 중 대다수는 모델 훈련 실험의 성능 추적 도구를 사용하지 않는다고 답했습니다. 하지만 15명 이상으로 구성된 데이터 팀(이러한 팀에서는 응답자 중 58%가 최소 한 가지 이상 사용), 팀에 전담 머신러닝 엔지니어(62%)가 있는 경우, 혹은 응답자 본인이 머신러닝 모델링 및 ML Ops 업무에 참여하는 경우(63%) 성능 추적 도구 사용 비율이 증가했습니다. 즉, 이러한 유형의 도구는 머신러닝 모델 개발과 관련된 전문 지식을 요하는 환경에서 사용되는 경향이 있습니다.

데이터 시각화에 주로 어떤 차트를 사용하시나요?

다수의 데이터 전문가는 데이터 탐색 및 표시를 위한 방법으로 단순하지만 의미 있는 그래프를 사용했습니다. 데이터 수집 및 탐색적 데이터 분석, 데이터 오케스트레이션 및 ML Ops 등 관련 데이터 활동 유형과 무관하게 응답자의 대다수가 이러한 차트를 사용했습니다.

데이터 과학:

2022

읽어주셔서 감사합니다!

이 보고서가 여러분에게 도움이 되었길 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.

질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.