データサイエンス
共有:
このセクションの質問は、ビジネスインテリジェンス、データ解析、データエンジニアリング、機械学習に関与する開発者、またはデータアナリスト / データエンジニア / データサイエンティスト / ビジネスアナリストを役職とする方に提示さ れました。
回答者の相当数が他の活動と共にデータサイエンスに関わる任務に従事しているようです。これらの数値から、この分野の民主化が進んでおり、データサイエンス市場の成長の機会が隠れていることがわかります。
PyCharm
Python、科学技術計算ライブラリ、対話型 Jupyter ノートブック、Anaconda、SQL および NoSQL データベースなどの優れたサポートによってデータパイプラインの構築、データの分析、プロトタイピング、および ML モデルのデプロイが可能なオールインワン型 Python IDE。
データサイエンス専門家の大半はデータ探索と表現に実証済みのプロットを使用する価値を見出しています。これらのチャートはデータ収集、探索的データ解析、データオーケストレーション、ML Ops など、多様なデータ関連タスクで広く使用されています。
Datalore
JetBrains の Datalore はチーム向けの共同データサイエンス・解析プラットフォームで、ブラウザーから直接アクセスできます。Datalore ノートブックは Jupyter と互換性があり、Python、SQL、R、Scala ノートブックだけでなく、ノーコード可視化やデータラングリングに対応したスマートコーディング支援を提供しています。Datalore のレポートビルダーをチームで使用すれば、コードや実験に満ちたノートブックを分かりやすいデータ駆動型のストーリーに変換することが可能です。チームでノートブックを共有し、リアルタイムで共同編集し、ワークスペースにプロジェクトをまとめることができます。
全チーム全部門の半数近くに専属のデータエンジニアまたは機械学習エンジニアが配属されています。
データサイエンティスト、データエンジニア、機械学習エンジニアといった役職は比較的最近になって雇用市場に現われた専門職です。多くの回答者は関連する分野からこれらの役職に移行しており、独学またはオンラインコースを通じて新しいスキルの習得を求められています。
データサイエンス専門家の大半はノートブックをバージョン管理していませんが、かなりの割合(41%)がバージョン管理しており、そのうちのほとんどがその目的で Git または GitHub を使用しています。
データサイエンスでは Jupyter ノートブックの多様な実装が広く普及しており、一般的なユースケースには探索的データ解析、データとデータクエリによる実験、モデルのプロトタイピングが挙げられます。およそ 40% のデータサイエンス専門家が Jupyter ノートブックを使用して仕事の結果を発表していますが、興味深いことに、多くの専門家(約 50%)は Jupyter ノートブックを作業時間の 10%~20% しか使用していません。
大半がローカルファイルを使用していますが、SQL データベースを使用する人の割合が前年から 10 パーセント増加しており、データサイエンスにおける SQL の重要性が浮き彫りになっています。
アンケートに回答したほとんどのデータサイエンティストはカスタム収集のデータを処理しています。最も一般的なデータ型はトランザクションデータ、時系列データ、画像、マシン生成データです。興味深いことに、30% が実際のイベントにいよって生成されたデータではなく、人工的に生成された合成データを使用しています。
全回答者の約 40% が機械学習またはディープラーニングモデルをトレーニングしていますが、この数値はデータ作業を主な活動としている人の間では 60% 以上です。この業界トレンドから、予測モデリングがデータ作業に取り組む際の中核となっていることがわかります。
データサイエンス専門家の半数は、月に 1 回以上は機械学習モデルを再トレーニングまたは更新していますが、ほとんどの方は毎月 20 時間未満しかこのタスクに費やしていません。
データサイエンス専門家の大半(81%)はモデルのトレーニングに GPU を使用しています。グラフィックプロセッサーを有効利用することでトレーニングが高速化され、それに伴ってモデルのパフォーマンスが強化されるため、研究者やデータスペシャリストにとってはますます魅力的なリソースとなっています。これは機械学習の世界において技術的イノベーションが重要であり、関連性があることを強く示しています。
機械学習タスクではより高い計算能力が必要とされている傾向にあることが明確になっています。およそ 80% のデータサイエンス専門家は現在 16 GB 以上の VRAM を使用しており、8 GB を使用する人の割合は昨年から 6 パーセント減少しています。
回帰や木ベースの手法といった主な機械学習アルゴリズムが普及している状態が続いていますが、かなりの数のデータサイエンス専門家もニューラルネットワークを採用しています。回答者の 30% が NLP 業務に従事してるのは、トランスフォーマーネットワークの人気の高まりとその使いやすさが理由だと考えられます。興味深いことに、参加者の 24% のみが業務で統計テストを使用していると回答しており、これは機械学習とディープラーニングが基本的なデータスキルとして古典的な統計手法を上回ったことを示しています。
最も一般的なエンタープライズクラウドソリューションの中では Amazon サービスが際立っています。エンタープライズ機械学習ソリューションの導入が前年比で大幅に(10 パーセント以上)増加している点には注目すべきです。
利用者数では TensorFlow が scikit-learn と PyTorch をわずかに引き離し、Keras と XGBoost も安定した採用率を示しています。興味深いことに、かなりの割合の回答者(19%)が特にフレームワークは使用していないと答えています。
TensorBoard は 23% の割合で最もよく使用されているツールとなっており、10% の MLFlow と 7% の WandB がその後に続いています。ただし、データサイエンス専門家の 3 分の 2 はモデルトレーニング実験の追跡に特定のツールを使用していません。
機械学習と AI は日常業務において重要な要素となっているため、回答者のほぼ半数が使用しているソフトウェアに組み込まれているさまざまな AI ベースの機能を使用しているのは驚くことではありません。
データの品質はデータを扱う専門家と組織にとって一般的な課題であり、およそ 50% がデータプレパレーションに 30% 以上の業務時間を費やしています。データクリーニングが最も時間のかかるデータ専門家のワークフローとして浮上していることは Anaconda の調査でも確認されています。回答者のほぼ半数はこのようなタスクの処理に総合開発環境(IDE)を使用しています。
最後までご覧いただきありがとうございました!
レポートはお役に立ちましたか?
ぜひこのレポートを友人や同僚と共有してください。
ご質問やご提案がございましたら、surveys@jetbrains.comまでお問合わせください。