データサイエンス

共有:

このセクションの質問は、ビジネスインテリジェンス、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティスト / ビジネスアナリストを役職とする方に提示されました。

あなたにとって、データサイエンス、データ解析、または機械学習はどのような活動ですか?

回答者の相当数が他の活動と共にデータサイエンスに関わる任務に従事しているようです。これらの数値から、この分野の民主化が進んでおり、データサイエンス市場の成長の機会が隠れていることがわかります。

チームまたはデータ部門に専属の機械学習エンジニア職がありますか?

PyCharm

Python、科学技術計算ライブラリ、対話型 Jupyter ノートブック、Anaconda、SQL および NoSQL データベースなどの優れたサポートによってデータパイプラインの構築、データの分析、プロトタイピング、および ML モデルのデプロイが可能なオールインワン型 Python IDE。

どのようなデータを解析していますか?

次のうち、どの活動に関与していますか?

データ可視化にはどのようなチャートを主に使用していますか?

データサイエンス専門家の大半はデータ探索と表現に実証済みのプロットを使用する価値を見出しています。これらのチャートはデータ収集、探索的データ解析、データオーケストレーション、ML Ops など、多様なデータ関連タスクで広く使用されています。

Datalore

JetBrains の Datalore はチーム向けの共同データサイエンス・解析プラットフォームで、ブラウザーから直接アクセスできます。Datalore ノートブックは Jupyter と互換性があり、Python、SQL、R、Scala ノートブックだけでなく、ノーコード可視化やデータラングリングに対応したスマートコーディング支援を提供しています。Datalore のレポートビルダーをチームで使用すれば、コードや実験に満ちたノートブックを分かりやすいデータ駆動型のストーリーに変換することが可能です。チームでノートブックを共有し、リアルタイムで共同編集し、ワークスペースにプロジェクトをまとめることができます。

チームまたはデータ部門に専属のデータエンジニア職がありますか?

全チーム全部門の半数近くに専属のデータエンジニアまたは機械学習エンジニアが配属されています。

どのようにしてデータサイエンス、機械学習、またはデータエンジニアリングを学習しましたか?

データサイエンティスト、データエンジニア、機械学習エンジニアといった役職は比較的最近になって雇用市場に現われた専門職です。多くの回答者は関連する分野からこれらの役職に移行しており、独学またはオンラインコースを通じて新しいスキルの習得を求められています。

ご自身を含め、データチームのメンバーは何人ですか?

データに関わる人の 50% 以上が 5 人以上で構成されるチームに所属しています。

データサイエンスまたはデータ解析では、どの IDE またはエディターを使用していますか?

作業時間のどれくらいをノートブックでの作業に費やしていますか?

ノートブックの使用目的は何ですか?

ノートブックをバージョン管理していますか?

どのバージョン管理ツールを使用していますか?

データサイエンス専門家の大半はノートブックをバージョン管理していませんが、かなりの割合(41%)がバージョン管理しており、そのうちのほとんどがその目的で Git または GitHub を使用しています。

どのツールで研究の結果を発表していますか?

データサイエンスでは Jupyter ノートブックの多様な実装が広く普及しており、一般的なユースケースには探索的データ解析、データとデータクエリによる実験、モデルのプロトタイピングが挙げられます。およそ 40% のデータサイエンス専門家が Jupyter ノートブックを使用して仕事の結果を発表していますが、興味深いことに、多くの専門家(約 50%)は Jupyter ノートブックを作業時間の 10%~20% しか使用していません。

データサイエンスタスクにはどのような計算リソースを使用していますか?

回答者の大半はローカルのリソースを利用してデータサイエンス業務に従事しています。

どのようなデータソースを扱っていますか?

大半がローカルファイルを使用していますが、SQL データベースを使用する人の割合が前年から 10 パーセント増加しており、データサイエンスにおける SQL の重要性が浮き彫りになっています。

どのようなデータを最もよく使用していますか?

作業で合成データを使用していますか?

アンケートに回答したほとんどのデータサイエンティストはカスタム収集のデータを処理しています。最も一般的なデータ型はトランザクションデータ、時系列データ、画像、マシン生成データです。興味深いことに、30% が実際のイベントにいよって生成されたデータではなく、人工的に生成された合成データを使用しています。

機械学習モデルまたはディープラーニングモデルをトレーニングしていますか?

全回答者の約 40% が機械学習またはディープラーニングモデルをトレーニングしていますが、この数値はデータ作業を主な活動としている人の間では 60% 以上です。この業界トレンドから、予測モデリングがデータ作業に取り組む際の中核となっていることがわかります。

機械学習モデルをどれくらいの頻度で再トレーニングまたは更新していますか?

毎月どれくらいの時間をモデルのトレーニングに費やしていますか?

データサイエンス専門家の半数は、月に 1 回以上は機械学習モデルを再トレーニングまたは更新していますが、ほとんどの方は毎月 20 時間未満しかこのタスクに費やしていません。

モデルのトレーニングに GPU を使用していますか?

データサイエンス専門家の大半(81%)はモデルのトレーニングに GPU を使用しています。グラフィックプロセッサーを有効利用することでトレーニングが高速化され、それに伴ってモデルのパフォーマンスが強化されるため、研究者やデータスペシャリストにとってはますます魅力的なリソースとなっています。これは機械学習の世界において技術的イノベーションが重要であり、関連性があることを強く示しています。

機械学習タスクには通常、どれくらいの VRAM が必要ですか?

機械学習タスクではより高い計算能力が必要とされている傾向にあることが明確になっています。およそ 80% のデータサイエンス専門家は現在 16 GB 以上の VRAM を使用しており、8 GB を使用する人の割合は昨年から 6 パーセント減少しています。

どのような手法とアルゴリズムを使用していますか?

回帰や木ベースの手法といった主な機械学習アルゴリズムが普及している状態が続いていますが、かなりの数のデータサイエンス専門家もニューラルネットワークを採用しています。回答者の 30% が NLP 業務に従事してるのは、トランスフォーマーネットワークの人気の高まりとその使いやすさが理由だと考えられます。興味深いことに、参加者の 24% のみが業務で統計テストを使用していると回答しており、これは機械学習とディープラーニングが基本的なデータスキルとして古典的な統計手法を上回ったことを示しています。

どのエンタープライズ機械学習ソリューションを使用していますか?

最も一般的なエンタープライズクラウドソリューションの中では Amazon サービスが際立っています。エンタープライズ機械学習ソリューションの導入が前年比で大幅に(10 パーセント以上)増加している点には注目すべきです。

どの機械学習フレームワークを使用していますか?

利用者数では TensorFlow が scikit-learn と PyTorch をわずかに引き離し、Keras と XGBoost も安定した採用率を示しています。興味深いことに、かなりの割合の回答者(19%)が特にフレームワークは使用していないと答えています。

モデルトレーニングの実験を追跡するには、どのツールを使用していますか?

TensorBoard は 23% の割合で最もよく使用されているツールとなっており、10% の MLFlow と 7% の WandB がその後に続いています。ただし、データサイエンス専門家の 3 分の 2 はモデルトレーニング実験の追跡に特定のツールを使用していません。

あなたの組織内での機械学習の使用についてもっともよく表しているのはどれですか?

機械学習と AI は日常業務において重要な要素となっているため、回答者のほぼ半数が使用しているソフトウェアに組み込まれているさまざまな AI ベースの機能を使用しているのは驚くことではありません。

どのエンタープライズクラウドソリューションを使用していますか?

あなた、またはあなたの組織にとって最も実行困難なデータ駆動の活動はどれですか?

チームがデータの管理、クリーニング、またはラベリングに費やしている時間は平均でどれくらいですか?

データクリーニングにはどのツールを使用していますか?

データの品質はデータを扱う専門家と組織にとって一般的な課題であり、およそ 50% がデータプレパレーションに 30% 以上の業務時間を費やしています。データクリーニングが最も時間のかかるデータ専門家のワークフローとして浮上していることは Anaconda の調査でも確認されています。回答者のほぼ半数はこのようなタスクの処理に総合開発環境(IDE)を使用しています。

データサイエンス:

2023

最後までご覧いただきありがとうございました!

レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。

ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。