データサイエンス

共有:

このセクションの質問は、ビジネスインテリジェンス、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティスト / ビジネスアナリストを役職とする方に示されました。

あなたにとって、データサイエンス、データ解析、データエンジニアリング、または機械学習はどのような活動ですか?

大多数の回答者は、データサイエンスの職務と他の活動を組み合わせています。これらの結果は、この領域が民主化されており、市場に伸びしろがあることを示しています。

これらのうち、どの活動に関与していますか?

54%

データ可視化

50%

データ収集 / データスクレイピング

42%

機械学習モデリング

38%

探索的データ解析

32%

データパイプライン

21%

ストレージアーキテクチャ

19%

データオーケストレーション

15%

ML Ops

1%

その他

9%

なし

JetBrains は、Datalore をチーム向けの共同データサイエンスプラットフォームとして作成しました。Datalore はデータプロフェッショナルに優れたコーディングエクスペリエンスを提供する一方で、データ探索と可視化ワークフローにノーコードの自動化を導入します。そのため、非技術系のユーザーでも中核のデータチームと同じツールを使用して、必要な場面でレポートの作成とデータ可視化を行えます。

どのようにしてデータサイエンス、機械学習、またはデータエンジニアリングを学習しましたか?

63%

独学した

40%

大学でプログラミングまたはデータ解析を勉強した

32%

オンラインコースを修了した

17%

ソフトウェアエンジニアリング職から転職した

3%

その他

データサイエンティスト、データエンジニア、および機械学習エンジニアなどの専門データスペシャリスト職は比較的新しい役職です。多くの回答者は隣接分野で勤務またはトレーニングを受けた後にこれらの役職に転向したため、独学やオンラインコースを通じてスキルアップを図る必要はありませんでした。従来は STEM で博士号を取得するのがデータサイエンスまたは機械学習分野への最も一般的な進路でしたが、過去 7 年間のトレンドではこれらの分野に携わった学士号取得者の数が、2015 年の 20% から 2021 年の 31% に増加しているのがわかります。データスキルを専門とする新しい学部課程の卒業者数が増加していることから、この結果は正式な教育を通じてスキルを習得した人の増加へとシフトしていく可能性があります。

データサイエンスまたはデータ解析では、どの IDE またはエディターを使用していますか?

42%

Jupyter ノートブック

41%

Visual Studio Code

31%

PyCharm Professional

19%

Google Colab

17%

JupyterLab

14%

DataGrip

9%

Kaggle

データサイエンスとデータ解析の作業では Jupyter ノートブックが最も人気のエディターで、回答者の約 40% がこれらの活動にノートブックを使用しているとしています。この結果はデータ収集と可視化、探索的データ解析、または機械学習モデリングを行っていると示した回答者ではさらに高くなっており、70% が Jupyter ノートブックを使用していると答えています。

このトピックに関する詳細は、JetBrains の最近の研究をご覧ください。2019 年から 2020 年にかけて、Python 3 ノートブックの数は 87% 増加し、Python 2 ノートブックは 12% 増加しています。

作業時間のどれくらいをノートブックでの作業に費やしていますか?

11%

ノートブックは使用していない

48%

10~20%

23%

20~40%

18%

40% 超

ノートブックの使用目的は何ですか?

69%

探索的データ解析

68%

データの実験 / データクエリ

64%

可視化

43%

モデルのプロトタイプ開発

9%

オーケストレーション

2%

その他

Jupyter ノートブックは引き続き最も一般的なツールの 1 つであり、回答者の 42% を占めています。また、データ作業を主な活動として述べている人では 50% 以上となっています。主な使用目的は、データの探索とモデルプロトタイプの作成といった探索的作業です。ただし、主にデータスペシャリストとして従事している人の間でも、ノートブックでの作業に 40% 以上の作業時間を費やしている人は少数となっています。

ノートブックをバージョン管理していますか?

どのバージョン管理ツールを使用していますか?

66%

Git

62%

GitHub

22%

GitLab

18%

エディター / IDE ツールのバージョン管理機能

9%

ノートブックのコピーを複数作成している

2%

その他

ノートブックをバージョン管理している人の割合は非常に高く、大半のデータプロフェッショナルがノートブックを保守すべきコードと見なしていることは良い兆候だと言えます。ノートブックをバージョン管理している人の間で最も一般的なツールは、Git と GitHub です。

Git コマンドラインインターフェース(CLI)で Jupyter ノートブックをバージョン管理するのは困難です。幸いにも DataSpell には Git と連携するための豊富な機能が揃っており、リポジトリのセットアップ、ノートブックの追加とプッシュ、ノートブックのコミット間の差分表示といった主なタスクを UI から簡単に実行できます。Git コマンドを 1 つも覚える必要はありません!DataSpell で Git と Jupyter ノートブックを使用する方法に関する詳細は、こちらの記事をご覧ください。

どのようなデータソースを扱っていますか?

67%

ローカルファイル

52%

SQL DB

24%

​​Amazon S3

19%

ビッグデータ

14%

Google ファイルストレージ

8%

Azure File Storage

5%

その他

ローカルファイルのほか、SQL データベースが引き続きデータスペシャリストの間で最も一般的に使用されているデータソースとなっています。

どのツールで研究の結果を発表していますか?

41%

PowerPoint、Google スライド、または同様のツール

40%

ノートブックを見せている

37%

表計算エディター

25%

MS Word、Google ドキュメント、または同様のツール

14%

Microsoft Power BI

11%

Tableau

6%

Plotly Dash

3%

Streamlit

1%

Qlick

1%

Voila

11%

その他

Datalore なら、Jupyter ノートブックを美しいデータアプリに瞬時に変えることができます。キャンバス上でセルを整列し、静的または対話モードで結果を公開できます。関係者はリンクを開いてレポートにアクセスできます。

レポートを見る

どのような手法とアルゴリズムを使用していますか?

55%

ニューラルネットワーク

50%

線形回帰またはロジスティック回帰

37%

意思決定木またはランダムフォレスト

34%

クラスタリング手法

27%

NLP 手法

23%

ベイジアンアプローチ

21%

統計的検定

回帰やツリーベースの手法といった機械学習の基本アルゴリズムが引き続き広く使用されていますが、回答者の大半はトランスフォーマーアーキテクチャを中心とするニューラルネットワークも使用しています。トランスフォーマーネットの使いやすさの向上と人気の高まりからも、回答者の 4 分の 1 以上が NLP の作業も行っていると答えた理由が伺えます。興味深いことに、回答者の 5 分の 1 のみが静的テストを作業の一部に使用していると答えており、機械学習とディープラーニングが古典的な統計学を上回る基本的なデータスキルになったことを示唆しています。

どの機械学習フレームワークを使用していますか?

55%

TensorFlow

47%

Scikit-learn

45%

PyTorch

31%

Keras

14%

XGBoost

7%

LightGBM

5%

fast.ai

全回答者の間で最も一般的なディープラーニングフレームワークは TensorFlow でしたが、データ作業を主な活動としている回答者の間では、TensorFlow と PyTorch が等しく使用されていました。最も一般的な機械学習ライブラリは Scikit-learn でしたが、ごく少数の回答者は XGBoost や LightGBM といったツリーベースモデリング用のスペシャリストパッケージとフレームワークを使用していました。

どのエンタープライズ機械学習ソリューションを使用していますか?

13%

Amazon Sagemaker

9%

Azure Machine Learning Studio

6%

Vertex AI

4%

Azure DataBricks

4%

IBM Watson Studio

2%

Gradient

2%

H2O

最も利用者の多いエンタープライズクラウドソリューションは、Amazon サービスです。

ご自身を含め、データチームのメンバーは何人ですか?

16%

1〜2 人

33%

3~5 人

24%

6〜10 人

9%

11〜15 人

18%

15 人超

回答者の大半(70%)はチームメンバーが 10 人以下の小規模のグループで作業しています。5 人に 1 人はデータスペシャリストが 15 人以上存在するチームで作業しています。

チームまたはデータ部門に専属のデータエンジニア職がありますか?

チームまたは部門の約 50% に専属のデータエンジニア職が用意されています。

チームまたはデータ部門に専属の機械学習エンジニア職がありますか?

50% 強の回答者が、チームに専属のデータエンジニアか機械学習エンジニアがいると答えました。データエンジニアと ML エンジニアはどちらも広義な役職名であり、会社ごとに非常に異なっているため、どちらかの役職に就いている人はモデル開発やデータパイプライン管理といった機械学習に関連する同様の業務を担当している可能性があります。当然のことながら、チームの規模が大きくなるほど、どちらかの役職に就いている人がいる可能性も高くなっています。メンバー数が 1~2 名のデータチームに所属する回答者の 80% 以上が専属のデータエンジニアまたは ML エンジニアがいないと答えたのに対し、15 人以上のデータチームに所属する回答者の 79% が専属のデータエンジニア、65% が専属の ML エンジニアがいると答えています。

機械学習モデルまたはディープラーニングモデルをトレーニングしていますか?

回答者の半数弱が機械学習モデルまたはディープラーニングモデルをトレーニングしており、この数はデータ作業を主な活動として実行している人の間では 60% に上っています。このことから、予測モデリングはこの業界のデータ作業を構成する重要な要素となっていることが伺えます。

モデルのトレーニングに GPU を使用していますか?

機械学習タスクには通常、どれくらいの VRAM が必要ですか?

28%

8 GB

33%

16 GB

23%

32 GB

10%

64 GB

5%

128 GB

ほとんどの回答者が機械学習モデルまたはディープラーニングモデルのトレーニングに GPU を使用していると回答しました。VRAM のニーズは回答者のデータ作業によって異なっています。データ作業を趣味または教育目的で行っている回答者の 40% は 8 GB で十分としているのに対し、主な活動としてデータ作業を行っている回答者の場合はわずか 18% でした。

毎月どれくらいの時間をモデルのトレーニングに費やしていますか?

30%

0 ~ 5 時間

33%

5 ~ 20 時間

21%

20~50 時間

8%

50~100 時間

8%

100 時間超

ほとんどの回答者がモデルのトレーニングに週 20 時間を費やしていると回答しました。この時間には、夜間に行われるトレーニングの時間も含まれている可能性があります。約 3 分の 1 が週 5 時間以下と回答しました。これは、大半の時間をデータの準備と探索に費やしているという過去の結果と一致しており、データサイエンス作業の中でもモデルトレーニングが占める割合は比較的小さいことを示しています。

データサイエンスタスクにはどのような計算リソースを使用していますか?

61%

ローカルリソース

29%

会社のオンプレミスサーバー

22%

Amazon Web Services

13%

Google Cloud Platform

9%

Microsoft Azure

3%

その他

14%

なし

この結果はノートブックで行われる主な活動がデータ探索と可視化であり、回答者の大半がローカルファイルで作業し、さらにはローカルリソースを使ってデータサイエンス作業を完了しているというアンケートの他の回答と一致しています。驚くことに、この結果は回答者のデータ作業の方法にほとんど左右されていません。データ作業を主な活動とする人は、趣味や教育目的で行う人と同程度にローカルリソースを使用しています。

モデルトレーニングの実験を追跡するには、具体的にどのツールを使用していますか?

23%

TensorBoard

8%

MLflow

4%

WandB

2%

その他

69%

なし

回答者の大半はモデルトレーニング実験のパフォーマンスを追跡するのにどのツールも使用していないと回答しました。しかし、このようなツールの使用率は、15 人以上のデータチームの場合(チームに属する回答者の 58% が少なくとも 1 つを使用)、チームに専属の機械学習エンジニアがいる場合(62%)、または回答者が機械学習モデリングと ML Ops の作業に従事している場合(63%)に高くなっています。この結果は、この種のツーリングが機械学習モデル開発分野の専門知識がある環境で使用される傾向にあることを示しています。

データ可視化にはどのようなチャートをよく使用していますか?

60%

折れ線グラフ

56%

ヒストグラム

55%

散布図

50%

棒グラフ

29%

積み上げ棒グラフ

27%

グループ化された棒グラフ

12%

バイオリン図

4%

その他

13%

なし

大半のデータスペシャリストの間では、データの探索と表示に単純ながらも有意義な図表が使用されていました。このようなチャートは、データ収集、探索的データ解析からデータオーケストレーション、ML Ops まで、関与しているデータ活動の種類に関係なく大半の回答者によって使用されていました。

データサイエンス:

2022

最後までご覧いただきありがとうございました!

レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。

ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。