データサイエンス

共有:

このセクションの質問は、ビジネスインテリジェンス、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティスト / ビジネスアナリストを役職とする方に提示されました。

あなたにとって、データサイエンス、データ解析、または機械学習はどのような活動ですか?

データ解析データサイエンス機械学習
19%17%16%自分の本業である
36%31%23%自分の副業である
14%16%18%教育目的に役立っている
18%20%24%単なる趣味である
12%16%19%データサイエンスには関わっていない
12%36%

回答者の相当数が他の活動と共にデータサイエンスに関わる任務に従事しているようです。これらの数値から、この分野の民主化が進んでおり、データサイエンス市場の成長の機会が隠れていることがわかります。

チームまたはデータ部門に専属の機械学習エンジニア職がありますか?

PyCharm

Python、科学技術計算ライブラリ、対話型 Jupyter ノートブック、Anaconda、SQL および NoSQL データベースなどの優れたサポートによってデータパイプラインの構築、データの分析、プロトタイピング、および ML モデルのデプロイが可能なオールインワン型 Python IDE。

どのようなデータを解析していますか?

33%

取引データ

30%

時系列データ

27%

写真または画像ファイル

26%

マシン生成データ

23%

ウェブページ

20%

ウェブのクリックストリームデータ

18%

顧客とのやり取り

次のうち、どの活動に関与していますか?

46%

データ可視化

43%

データ収集 / データスクレイピング

33%

探索的データ解析

31%

機械学習モデリング

31%

データパイプライン

23%

機械学習演算

21%

ストレージアーキテクチャ

データ可視化にはどのようなチャートを主に使用していますか?

64%

折れ線グラフ

58%

棒グラフ

57%

散布図

54%

ヒストグラム

33%

積み上げ棒グラフ

31%

グループ化された棒グラフ

13%

バイオリン図

4%

その他

10%

該当なし

データサイエンス専門家の大半はデータ探索と表現に実証済みのプロットを使用する価値を見出しています。これらのチャートはデータ収集、探索的データ解析、データオーケストレーション、ML Ops など、多様なデータ関連タスクで広く使用されています。

Datalore

JetBrains の Datalore はチーム向けの共同データサイエンス・解析プラットフォームで、ブラウザーから直接アクセスできます。Datalore ノートブックは Jupyter と互換性があり、Python、SQL、R、Scala ノートブックだけでなく、ノーコード可視化やデータラングリングに対応したスマートコーディング支援を提供しています。Datalore のレポートビルダーをチームで使用すれば、コードや実験に満ちたノートブックを分かりやすいデータ駆動型のストーリーに変換することが可能です。チームでノートブックを共有し、リアルタイムで共同編集し、ワークスペースにプロジェクトをまとめることができます。

チームまたはデータ部門に専属のデータエンジニア職がありますか?

全チーム全部門の半数近くに専属のデータエンジニアまたは機械学習エンジニアが配属されています。

どのようにしてデータサイエンス、機械学習、またはデータエンジニアリングを学習しましたか?

56%

独学した

41%

大学でプログラミングまたはデータ解析を勉強した

36%

オンラインコースを修了した

19%

ソフトウェアエンジニアリング職から転職した

4%

その他

データサイエンティスト、データエンジニア、機械学習エンジニアといった役職は比較的最近になって雇用市場に現われた専門職です。多くの回答者は関連する分野からこれらの役職に移行しており、独学またはオンラインコースを通じて新しいスキルの習得を求められています。

ご自身を含め、データチームのメンバーは何人ですか?

20%

1~2 人

15%

3 人

11%

4 人

9%

5 人

16%

6〜7 人

12%

8~10 人

7%

11〜15 人

11%

15 人超

データに関わる人の 50% 以上が 5 人以上で構成されるチームに所属しています。

データサイエンスまたはデータ解析では、どの IDE またはエディターを使用していますか?

40%

Visual Studio Code

35%

Jupyter ノートブック

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

作業時間のどれくらいをノートブックでの作業に費やしていますか?

48%

10~20%

23%

20~40%

20%

40% 超

10%

ノートブックは使用していない

ノートブックの使用目的は何ですか?

71%

探索的データ解析

66%

データの実験 / データクエリ

65%

可視化

43%

モデルのプロトタイプ開発

9%

オーケストレーション

1%

その他

ノートブックをバージョン管理していますか?

どのバージョン管理ツールを使用していますか?

57%

Git

57%

GitHub

23%

GitLab

20%

エディター / IDE 内でのバージョン管理

12%

ノートブックのコピーを複数作成している

2%

その他

データサイエンス専門家の大半はノートブックをバージョン管理していませんが、かなりの割合(41%)がバージョン管理しており、そのうちのほとんどがその目的で Git または GitHub を使用しています。

どのツールで研究の結果を発表していますか?

39%

PowerPoint、Google Slides、または同様のツール

37%

ノートブックを見せている

36%

表計算エディター

25%

MS Word、Google ドキュメント、または同様のツール

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

その他

データサイエンスでは Jupyter ノートブックの多様な実装が広く普及しており、一般的なユースケースには探索的データ解析、データとデータクエリによる実験、モデルのプロトタイピングが挙げられます。およそ 40% のデータサイエンス専門家が Jupyter ノートブックを使用して仕事の結果を発表していますが、興味深いことに、多くの専門家(約 50%)は Jupyter ノートブックを作業時間の 10%~20% しか使用していません。

データサイエンスタスクにはどのような計算リソースを使用していますか?

57%

ローカルリソース

28%

オンプレミスの会社サーバー

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

その他

15%

該当なし

回答者の大半はローカルのリソースを利用してデータサイエンス業務に従事しています。

どのようなデータソースを扱っていますか?

67%

64%

ローカルファイル

52%

62%

SQL データベース

24%

23%

​​Amazon S3

19%

15%

ビッグデータ

14%

15%

Google ファイルストレージ

8%

9%

Azure ファイルストレージ

5%

4%

その他

大半がローカルファイルを使用していますが、SQL データベースを使用する人の割合が前年から 10 パーセント増加しており、データサイエンスにおける SQL の重要性が浮き彫りになっています。

どのようなデータを最もよく使用していますか?

作業で合成データを使用していますか?

アンケートに回答したほとんどのデータサイエンティストはカスタム収集のデータを処理しています。最も一般的なデータ型はトランザクションデータ、時系列データ、画像、マシン生成データです。興味深いことに、30% が実際のイベントにいよって生成されたデータではなく、人工的に生成された合成データを使用しています。

機械学習モデルまたはディープラーニングモデルをトレーニングしていますか?

全回答者の約 40% が機械学習またはディープラーニングモデルをトレーニングしていますが、この数値はデータ作業を主な活動としている人の間では 60% 以上です。この業界トレンドから、予測モデリングがデータ作業に取り組む際の中核となっていることがわかります。

機械学習モデルをどれくらいの頻度で再トレーニングまたは更新していますか?

27%

月に複数回

23%

毎月

18%

毎四半期

7%

年に 2 回

7%

毎年

18%

まったくない

毎月どれくらいの時間をモデルのトレーニングに費やしていますか?

27%

0~5 時間

36%

5~20 時間

23%

20~50 時間

8%

50~100 時間

6%

100 時間超

データサイエンス専門家の半数は、月に 1 回以上は機械学習モデルを再トレーニングまたは更新していますが、ほとんどの方は毎月 20 時間未満しかこのタスクに費やしていません。

モデルのトレーニングに GPU を使用していますか?

データサイエンス専門家の大半(81%)はモデルのトレーニングに GPU を使用しています。グラフィックプロセッサーを有効利用することでトレーニングが高速化され、それに伴ってモデルのパフォーマンスが強化されるため、研究者やデータスペシャリストにとってはますます魅力的なリソースとなっています。これは機械学習の世界において技術的イノベーションが重要であり、関連性があることを強く示しています。

機械学習タスクには通常、どれくらいの VRAM が必要ですか?

28%

22%

8 GB

33%

29%

16 GB

23%

22%

32 GB

10%

14%

64 GB

5%

6%

128 GB

8%

128 GB 超

機械学習タスクではより高い計算能力が必要とされている傾向にあることが明確になっています。およそ 80% のデータサイエンス専門家は現在 16 GB 以上の VRAM を使用しており、8 GB を使用する人の割合は昨年から 6 パーセント減少しています。

どのような手法とアルゴリズムを使用していますか?

47%

線形回帰またはロジスティック回帰

47%

ニューラルネットワーク

38%

意思決定木またはランダムフォレスト

36%

クラスタリング手法

30%

NLP 手法

25%

ベイジアンアプローチ

24%

Transformer ネットワーク

回帰や木ベースの手法といった主な機械学習アルゴリズムが普及している状態が続いていますが、かなりの数のデータサイエンス専門家もニューラルネットワークを採用しています。回答者の 30% が NLP 業務に従事してるのは、トランスフォーマーネットワークの人気の高まりとその使いやすさが理由だと考えられます。興味深いことに、参加者の 24% のみが業務で統計テストを使用していると回答しており、これは機械学習とディープラーニングが基本的なデータスキルとして古典的な統計手法を上回ったことを示しています。

どのエンタープライズ機械学習ソリューションを使用していますか?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

最も一般的なエンタープライズクラウドソリューションの中では Amazon サービスが際立っています。エンタープライズ機械学習ソリューションの導入が前年比で大幅に(10 パーセント以上)増加している点には注目すべきです。

どの機械学習フレームワークを使用していますか?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

利用者数では TensorFlow が scikit-learn と PyTorch をわずかに引き離し、Keras と XGBoost も安定した採用率を示しています。興味深いことに、かなりの割合の回答者(19%)が特にフレームワークは使用していないと答えています。

モデルトレーニングの実験を追跡するには、どのツールを使用していますか?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

その他

66%

該当なし

TensorBoard は 23% の割合で最もよく使用されているツールとなっており、10% の MLFlow と 7% の WandB がその後に続いています。ただし、データサイエンス専門家の 3 分の 2 はモデルトレーニング実験の追跡に特定のツールを使用していません。

あなたの組織内での機械学習の使用についてもっともよく表しているのはどれですか?

47%

製品またはサービスでの AI ベース機能の使用

30%

新製品のリサーチと開発の支援

28%

本番アプリケーションの駆動

28%

潜在的なアプリケーションのリサーチ / 試験を実施中

25%

会社データの理解促進

22%

事業コストの削減

21%

他の事業部門のサポート

機械学習と AI は日常業務において重要な要素となっているため、回答者のほぼ半数が使用しているソフトウェアに組み込まれているさまざまな AI ベースの機能を使用しているのは驚くことではありません。

どのエンタープライズクラウドソリューションを使用していますか?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

あなた、またはあなたの組織にとって最も実行困難なデータ駆動の活動はどれですか?

47%

データ品質

29%

データセキュリティとガバナンス

28%

データプレパレーション / 変換

28%

データ解析

23%

データ作成 / 収集

22%

データインテグレーション

20%

データ移行

チームがデータの管理、クリーニング、またはラベリングに費やしている時間は平均でどれくらいですか?

データクリーニングにはどのツールを使用していますか?

47%

IDE(開発環境)

27%

クラウドプラットフォーム

27%

表計算シート

3%

OpenRefine などの専門ツール

5%

その他

29%

データクリーニングは行っていない

データの品質はデータを扱う専門家と組織にとって一般的な課題であり、およそ 50% がデータプレパレーションに 30% 以上の業務時間を費やしています。データクリーニングが最も時間のかかるデータ専門家のワークフローとして浮上していることは Anaconda の調査でも確認されています。回答者のほぼ半数はこのようなタスクの処理に総合開発環境(IDE)を使用しています。

データサイエンス:

2023

最後までご覧いただきありがとうございました!

レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。

ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。