데이터 과학

공유하기:

이 섹션의 질문은 비즈니스 인텔리전스, 데이터 분석, 데이터 엔지니어링, 머신 러닝에 관련된 개발자 또는 직무가 데이터 분석가/데이터 엔지니어/데이터 과학자/비즈니스 분석가인 개발자에게만 표시되었습니다.

본인에게 데이터 과학, 데이터 분석 또는 머신 러닝은 어떠한 활동인가요?

데이터 분석데이터 과학머신러닝
19%17%16%주요 업무 활동
36%31%23%부차적 전문 활동
14%16%18%교육 목적에 도움이 됨
18%20%24%단순한 취미
12%16%19%본인은 데이터 과학에 관여하지 않음
12%36%

상당수의 응답자가 다른 활동과 함께 데이터 과학 업무를 동시에 책임지고 있는 것으로 보입니다. 이러한 결과는 해당 분야의 대중화가 진행 중임을 시사하며, 이는 데이터 과학 시장의 성장을 위한 잠재적 기회를 의미합니다.

팀 또는 데이터 부서에 전담 머신러닝 엔지니어 직책이 있나요?

PyCharm

Python, 과학 라이브러리, 대화형 Jupyter Notebook, Anaconda, SQL 및 NoSQL 데이터베이스 등에 대한 뛰어난 지원을 통해 데이터 파이프라인 구축, 데이터 분석, 프로토타이핑 및 ML 모델 배포에 이용되는 올인원 Python IDE입니다.

어떤 유형의 데이터를 분석하시나요?

33%

거래 데이터

30%

시계열 데이터

27%

사진 또는 이미지 파일

26%

머신 생성 데이터

23%

웹 페이지

20%

웹 클릭스트림 데이터

18%

고객 상호 작용

다음 중 어떤 활동에 참여하고 계신가요?

46%

데이터 시각화

43%

데이터 수집/데이터 스크래핑

33%

탐색적 데이터 분석

31%

머신러닝 모델링

31%

데이터 파이프라인

23%

머신러닝 운영

21%

스토리지 아키텍처

데이터 시각화를 위해 어떤 유형의 차트를 가장 많이 사용하시나요?

64%

선 도표

58%

막대 도표

57%

산포도

54%

히스토그램

33%

누적 막대 도표

31%

그룹 막대 도표

13%

바이올린 도표

4%

기타

10%

없음

대다수의 데이터 과학 전문가는 데이터 탐색 및 표현에 실질적으로 입증된 플롯을 사용하는 데 가치를 둡니다. 이러한 유형의 차트는 데이터 수집, 탐색적 데이터 분석, 데이터 조정, ML Ops 등 다양한 데이터 관련 작업에 폭넓게 사용됩니다.

Datalore

JetBrains의 Datalore는 브라우저에서 바로 액세스할 수 있는 팀 협업용 데이터 과학 및 분석 플랫폼입니다. Datalore Notebook은 Jupyter와 호환되며 Python, SQL, R, Scala Notebook에 대한 스마트 코딩 지원은 물론, 노 코드 시각화와 데이터 랭글링도 제공합니다. Datalore의 보고서 빌더를 사용하면 코드와 실험으로 가득 찬 Notebook을 명확한 데이터 기반의 스토리로 바꿀 수 있습니다. 팀은 Notebook을 공유하고, 실시간으로 함께 편집하고, 작업 공간에서 프로젝트를 구성할 수 있습니다.

팀 또는 데이터 부서에 전담 데이터 엔지니어 직책이 있나요?

모든 팀과 부서의 거의 절반이 전담 데이터 엔지니어 또는 머신 러닝 엔지니어를 두고 있습니다.

데이터 과학, 머신러닝 또는 데이터 엔지니어링을 어떻게 학습하셨나요?

56%

독학

41%

대학에서 프로그래밍이나 데이터 분석을 공부함

36%

온라인 과정을 수료함

19%

소프트웨어 엔지니어링 직무에서 이직함

4%

기타

데이터 과학자, 데이터 엔지니어, 머신 러닝 엔지니어와 같은 전문 직종은 비교적 최근에 고용 시장에 편입되었습니다. 많은 응답자가 관련 분야에서 이러한 직종으로 이직하고 있어 독학이나 온라인 과정을 통해 새로운 기술을 습득해야 할 필요성이 대두됩니다.

귀하를 포함하여 데이터 팀의 팀원은 몇 명인가요?

20%

1~2명

15%

3

11%

4명

9%

5명

16%

6~7명

12%

8~10명

7%

11~15명

11%

15명 초과

데이터 작업 종사자의 50% 이상이 5명 이상의 팀으로 구성되어 있습니다.

데이터 과학 또는 데이터 분석 작업에 어떤 IDE 또는 에디터를 사용하시나요?

40%

Visual Studio Code

35%

Jupyter Notebook

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

업무 시간 중 Notebook에 할애하는 시간은 얼마나 되나요?

48%

10~20%

23%

20~40%

20%

40% 초과

10%

Notebook을 사용하지 않음

Notebook을 어떤 용도로 사용하시나요?

71%

탐색적 데이터 분석

66%

데이터/데이터 쿼리에 대한 실험

65%

시각화

43%

모델 프로토타이핑

9%

오케스트레이션

1%

기타

Notebook 버전을 관리하시나요?

어떤 버전 관리 도구를 사용하시나요?

57%

Git

57%

GitHub

23%

GitLab

20%

에디터/IDE 내 버전 관리

12%

Notebook 사본을 여러 개 만듬

2%

기타

대다수의 데이터 과학 전문가는 Notebook 버전을 관리하지 않지만 상당한 비율(41%)이 그렇게 하고 있으며 그들 대부분은 버전 관리를 위해 Git 또는 GitHub를 선택합니다.

연구 결과를 발표하기 위해 어떤 도구를 사용하시나요?

39%

PowerPoint, Google Slides 등

37%

Notebook을 보여줌

36%

스프레드시트 에디터

25%

MS Word, Google 문서 등

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

기타

Jupyter Notebook의 다양한 구현은 탐색적 데이터 분석, 데이터 실험 및 데이터 쿼리, 모델 프로토타입 제작을 포함한 일반적인 사용 사례를 포함해 데이터 과학에서 폭넓게 사용됩니다. 데이터 과학 전문가의 약 40%가 Jupyter Notebook을 사용하여 작업 결과를 나타내지만, 흥미롭게도 많은 사람들(거의 50%)이 Jupyter Notebook을 사용하는 데 작업 시간의 10~20%만 소비합니다.

데이터 과학 작업 시 어떤 컴퓨팅 리소스를 사용하시나요?

57%

로컬 리소스

28%

온프레미스 회사 서버

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

기타

15%

없음

대다수의 응답자는 데이터 과학 작업을 위해 로컬 리소스에 의존합니다.

어떤 유형의 데이터 소스를 사용하시나요?

67%

64%

로컬 파일

52%

62%

SQL 데이터베이스

24%

23%

​​Amazon S3

19%

15%

빅데이터

14%

15%

Google 파일 스토리지

8%

9%

Azure 파일 스토리지

5%

4%

기타

대다수가 로컬 파일을 사용하지만 SQL 데이터베이스를 사용하는 비율은 지난 1년 동안 10% 증가하여 데이터 과학에서 SQL의 중요성을 잘 보여주었습니다.

어떤 종류의 데이터를 가장 많이 사용하시나요?

작업에 합성 데이터를 사용하나요?

설문조사에 참여한 대부분의 데이터 과학자는 사용자 정의 수집 데이터를 처리하며 가장 널리 사용되는 데이터 유형은 트랜잭션 데이터, 시계열 데이터, 이미지 및 머신 생성 데이터입니다. 흥미롭게도, 30%는 실제 사건에 의해 생성된 데이터가 아닌 인위적으로 만들어진 데이터인 합성 데이터를 사용하여 작업합니다.

머신러닝 또는 딥러닝 모델 훈련을 수행하시나요?

전체 응답자의 약 40%가 머신 러닝 또는 딥러닝 모델을 학습했습니다. 하지만 데이터 작업을 주요 활동으로 생각하는 사람들 사이에서는 이 수치가 60% 이상으로 뛰어 오릅니다. 이러한 업계 동향은 예측 모델링이 데이터 작업의 핵심 측면으로 자리잡고 있음을 의미합니다.

머신 러닝 모델을 얼마나 자주 재학습 또는 업데이트하시나요?

27%

한 달에 한 번 이상

23%

매월

18%

분기별로

7%

일 년에 두 번

7%

일 년에 한 번

18%

전혀 안 함

모델 교육에 매달 할애하는 시간은 얼마나 되나요?

27%

0~5시간

36%

5~20시간

23%

20~50시간

8%

50~100시간

6%

100시간 초과

데이터 과학 전문가 중 절반은 한 달에 한 번 이상 머신 러닝 모델을 재학습하거나 업데이트하지만 대부분은 이 작업을 위해 한 달에 20시간 미만을 소비합니다.

GPU를 사용하여 모델을 훈련하나요?

데이터 과학 전문가의 대다수(81%)가 모델 학습에 GPU를 사용합니다. 그래픽 프로세서를 효율적으로 사용하면 학습 속도가 빨라지고 모델 성능이 향상되므로 연구자와 데이터 전문가에게 점차 매력적인 리소스로 자리잡고 있습니다. 이는 또한 머신 러닝 업계에서 기술 혁신의 중요성과 관련성을 잘 드러내줍니다.

머신러닝 작업 시 일반적으로 VRAM은 얼마나 필요한가요?

28%

22%

8GB

33%

29%

16GB

23%

22%

32GB

10%

14%

64GB

5%

6%

128GB

8%

128GB 초과

더 높은 컴퓨팅 성능은 머신 러닝 작업에서 분명히 나타나는 추세입니다. 현재, 데이터 과학 전문가의 거의 80%가 16GB 이상의 VRAM을 사용하는 반면, 8GB를 사용하는 전문가의 비율은 지난 1년 동안 6% 감소했습니다.

어떤 방법과 알고리즘을 사용하시나요?

47%

선형 또는 로지스틱 회귀

47%

신경망

38%

의사 결정 트리 또는 랜덤 포레스트

36%

클러스터링 방법

30%

NLP 방법

25%

베이지안 접근법

24%

변환기 네트워크

회귀 및 트리 기반 방법과 같은 핵심 머신 러닝 알고리즘은 여전히 널리 사용되고 있지만 상당수의 데이터 과학 전문가들은 신경망도 채택하고 있습니다. 트랜스포머 신경망의 인기 상승과 사용자 친화성은 응답자의 30%가 NLP 작업에 참여하는 이유를 설명할 수 있습니다. 흥미롭게도, 참가자 중 24%만이 업무에 통계 테스트를 사용한다고 보고했는데, 이는 머신 러닝과 딥 러닝이 기본 데이터 기술로서 고전적인 통계 기법을 능가했음을 시사합니다.

어떤 엔터프라이즈 머신러닝 솔루션을 사용하시나요?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Amazon 서비스는 가장 인기 있는 엔터프라이즈 클라우드 솔루션으로 두각을 나타냈습니다. 놀랍게도 전년도에 비해 엔터프라이즈 머신 러닝 솔루션 채택이 크게 증가했습니다(10% 이상).

어떤 머신 러닝 프레임워크를 사용하시나요?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow는 scikit-learn과 PyTorch보다 인기가 약간 앞서 있으며 Keras와 XGBoost도 탄탄한 채택률을 보이고 있습니다. 흥미롭게도, 응답자의 상당수(19%)는 특정 프레임워크를 사용하지 않는다고 답했습니다.

모델 학습 실험을 추적하는 데 어떤 도구를 사용하시나요?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

기타

66%

없음

TensorBoard는 가장 일반적으로 사용되는 도구로 23%의 점유율을 차지하고 MLFlow가 10%, WandB가 7%로 뒤를 잇고 있습니다. 그러나 데이터 과학 전문가의 2/3는 모델 학습 실험을 추적하기 위한 특정 도구를 사용하지 않습니다.

다음 중 귀하의 조직에서 머신 러닝 사용을 가장 잘 설명한 것은 무엇인가요?

47%

제품 또는 서비스에 AI 기반 기능 사용

30%

신제품 연구 개발 지원

28%

프로덕션 애플리케이션 촉진

28%

아직 잠재적 애플리케이션의 연구 조사/테스트 진행 중

25%

기업 데이터에 대한 이해 개선

22%

비즈니스 비용 절감

21%

기타 업무 부서 지원

머신 러닝과 AI는 일상 비즈니스 활동에서 중요한 부분이 되었기 때문에 응답자의 거의 절반이 자신이 사용하는 소프트웨어에 통합된 다양한 AI 기반 기능을 사용한다는 사실은 놀랄 일이 아닙니다.

어떤 엔터프라이즈 클라우드 솔루션을 사용하시나요?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

다음 중 귀하 또는 귀하의 조직에서 수행하기 가장 어려운 데이터 기반 활동은 무엇인가요?

47%

데이터 품질

29%

데이터 보안 및 거버넌스

28%

데이터 준비/변환

28%

데이터 분석

23%

데이터 생성/수집

22%

데이터 통합

20%

데이터 마이그레이션

팀에서 데이터 관리, 정리 또는 레이블 지정에 소요되는 시간은 평균적으로 얼마나 되나요?

데이터 정리를 위해 어떤 도구를 사용하시나요?

47%

IDE

27%

클라우드 플랫폼

27%

스프레드시트

3%

OpenRefine 같은 전문 도구

5%

기타

29%

데이터 정리를 수행하지 않음

데이터 품질은 데이터를 다루는 전문가와 조직의 일반적인 과제이며, 이들 중 거의 절반이 데이터 준비에 전체 시간의 30% 이상을 투자한다고 나타낼 정도입니다. Anaconda 연구에서도 데이터 정리가 데이터 전문가의 워크플로에서 가장 시간이 많이 걸리는 측면으로 떠오르고 있음을 확인했습니다. 응답자 중 거의 절반이 이러한 유형의 작업을 처리하기 위해 통합 개발 환경(IDE)을 선택했습니다.

데이터 과학:

2023

읽어주셔서 감사합니다!

이 보고서가 여러분에게 도움이 되었기를 바랍니다. 이 보고서를 친구와 동료에게 공유하세요.

질문이나 제안이 있으면 surveys@jetbrains.com으로 연락해 주세요.