Veri Bilimi

Paylaş:

Bu bölümdeki sorular İş Zekası, Veri Analizi, Veri Mühendisliği, Makine Öğrenimi alanlarında çalışan ya da Veri Analisti / Veri Mühendisi / Veri Bilimcisi ya da İş Analisti iş rolünde görev üstlenen geliştiricilere gösterildi.

Sizin için veri bilimi, veri analizi ya da makine öğrenimi ne tür aktivitelerden oluşur?

Veri analiziVeri bilimiMakine öğrenimi
%19%17%16Birincil profesyonel işim
%36%31%23İkincil profesyonel işim
%14%16%18Eğitim amaçlarıma hizmet ediyor
%18%20%24Sadece hobi
%12%16%19Veri bilimiyle ilgilenmiyorum
%12%36

Katılımcıların önemli bir kısmı veri bilimi sorumlulukları ile diğer aktiviteleri beraberinde yürütüyor. Bu sonuçlar, alanda demokratikleşme konusunda ilerleme olduğunu gösteriyor ve veri bilimi sektörünün büyümesi konusunda potansiyel fırsatlar olduğuna işaret ediyor.

Ekibinizde veya veri departmanınızda özel bir Makine Öğrenimi Mühendisi rolü var mı?

PyCharm

Python, bilimsel kitaplıklar, etkileşimli Jupyter not defterleri, Anaconda, SQL ve NoSQL veritabanları ve daha fazlası için mükemmel destek sağlayan veri ardışık düzenleri oluşturmak, verileri analiz etmek, model prototipi oluşturmak ve ML modellerini dağıtmak için hepsi bir arada Python IDE.

Hangi veri türlerini analiz ediyorsunuz?

33%

İşlem verileri

30%

Zaman serisi verileri

27%

Fotoğraf veya görüntü dosyaları

26%

Makine tarafından oluşturulan veri

23%

Web sayfaları

20%

Web tıklama akışı verileri

18%

Müşteri etkileşimleri

Aşağıdaki aktivitelerden hangileriyle ilgileniyorsunuz?

46%

Veri görselleştirme

43%

Veri toplama/veri kazıma

33%

Keşif amaçlı veri analizi

31%

Makine öğrenimi modelleme

31%

Veri ardışık düzenleri

23%

Makine öğrenimi operasyonları

21%

Depolama mimarisi

Veri görselleştirme için en çok hangi grafik türlerini kullanıyorsunuz?

64%

Çizgi grafiği

58%

Çubuk grafik

57%

Dağılım grafiği

54%

Histogram

33%

Yığılı çubuk grafik

31%

Gruplandırılmış çubuk grafik

13%

Keman grafiği

4%

Diğer

10%

Hiç

Veri bilimi profesyonellerinin çoğunluğu, veri araştırması ve sunumu için denenmiş ve doğru grafikleri kullanmanın değerli olduğunu düşünüyor. Bu tür grafikler; veri toplama, keşif amaçlı veri analizi, veri düzenleme ve ML Ops gibi veriyle ilgili çeşitli görevlerde yaygın bir şekilde kullanılıyor.

Datalore

JetBrains'in sunduğu Datalore, ekipler için doğrudan tarayıcıdan erişilebilir, iş birliğine dayalı veri bilimi ve analiz platformudur. Datalore not defterleri Jupyter ile uyumludur ve Python, SQL, R ve Scala not defterleri için kodsuz görselleştirme ve veri hazırlığının yanı sıra akıllı kodlama yardımı sunar. Datalore'un Rapor oluşturma aracı, ekiplerin kod ve deneme dolu bir not defterini anlaşılır ve veriye dayalı bir hikâyeye dönüştürmesine olanak sağlar. Ekipler not defterlerini paylaşabilir, gerçek zamanlı olarak birlikte düzenleyebilir ve çalışma alanında projelerini organize edebilir.

Ekibinizde veya veri departmanınızda özel bir Veri Mühendisi rolü var mı?

Tüm ekiplerin ve departmanların neredeyse yarısında özel bir Veri Mühendisi veya Makine Öğrenimi Mühendisi var.

Veri bilimi, makine öğrenimi veya veri mühendisliğini nasıl öğrendiniz?

56%

Bağımsız olarak çalıştım

41%

Üniversitede programlama veya veri analizi üzerine eğitim aldım

36%

Çevimiçi kurslar tamamladım

19%

Yazılım mühendisliğinden bu alana geçtim

4%

Diğer

Veri Bilimci, Veri Mühendisi ve Makine Öğrenimi Mühendisi gibi özel roller, iş piyasasına nispeten yeni eklenen meslekler. Çoğu katılımcı bu rollere bağlantılı alanlardan geçiş yapıyor ve geçiş nedeniyle kendi kendilerine çalışarak veya çevrimiçi kurslarla yeni beceriler edinmek durumunda kalıyor.

Kendiniz de dâhil olmak üzere veri ekibinizin kaç üyesi var?

20%

1–2

15%

3

11%

4

9%

5

16%

6–7

12%

8–10

7%

11–15

11%

15'ten fazla

Veriyle çalışanların %50'sinden fazlası beş veya daha fazla kişiden oluşan ekiplere sahip.

Veri bilimi veya veri analizi için hangi IDE'leri veya düzenleyicileri kullanıyorsunuz?

40%

Visual Studio Code

35%

Jupyter Notebook

27%

PyCharm Professional Edition

20%

PyCharm Community Edition

17%

Google Colab

13%

DataGrip

13%

JupyterLab

Not defterlerine çalışma zamanınızın ne kadarını ayırıyorsunuz?

48%

%10–20

23%

%20–40

20%

%40'tan fazla

10%

Not defterleri kullanmıyorum

Not defterlerini hangi amaçla kullanıyorsunuz?

71%

Keşif amaçlı veri analizi

66%

Veriler/veri sorgulama üzerinde denemeler

65%

Görselleştirme

43%

Model prototipi oluşturma

9%

Düzenleme

1%

Diğer

Not defterlerinizin sürümlerini tutuyor musunuz?

Hangi versiyonlama araçlarını kullanıyorsunuz?

57%

Git

57%

GitHub

23%

GitLab

20%

Düzenleyicimde / IDE içinde sürüm oluşturuyorum

12%

Not defterlerimin farklı kopyalarını oluşturuyorum

2%

Diğer

Veri bilimi profesyonellerinin çoğunluğu not defterlerinin sürümünü oluşturmuyor, önemli bir kısmı (%41) sürüm oluşturuyor ve çoğu sürüm oluşturmak için Git veya GitHub'ı kullanıyor.

Araştırmalarınızın sonuçlarını sunmak için hangi araçları kullanıyorsunuz?

39%

PowerPoint, Google Slaytlar veya benzerleri

37%

Not defterini sunuyorum

36%

E-tablo düzenleyici

25%

MS Word, Google Dokümanlar vb.

18%

Microsoft Power BI

14%

Tableau

6%

Streamlit

5%

Plotly Dash

3%

Looker

2%

Qlik

1%

Voila

9%

Diğer

Jupyter not defterlerinin çeşitli uygulamaları veri biliminde oldukça popüler; keşif amaçlı veri analizi, veri denemeleri, veri sorgulama ve model prototipi oluşturma gibi yaygın kullanım durumları vardır. Veri bilimi profesyonellerinin yaklaşık %40'ı iş sonuçlarını sunmak için Jupyter not defterlerini kullanıyor, ancak ilginç bir şekilde çoğu (neredeyse %50'si) Jupyter not defterlerini kullanmak için zamanlarının yalnızca %10–%20'sini harcıyor.

Veri bilimi görevleri için ne tür hesaplama kaynakları kullanıyorsunuz?

57%

Yerel kaynaklar

28%

Kurum içi şirket sunucuları

21%

Amazon Web Services

15%

Google Cloud Platform

10%

Microsoft Azure

2%

Diğer

15%

Hiç

Katılımcıların büyük bir kısmı veri bilimi işleri için yerel kaynaklara güveniyor.

Ne tür veri kaynaklarıyla çalışıyorsunuz?

67%

64%

Yerel dosyalar

52%

62%

SQL veri tabanları

24%

23%

​​Amazon S3

19%

15%

Büyük veri

14%

15%

Google dosya depolama

8%

9%

Azure dosya depolama

5%

4%

Diğer

Çoğunluk yerel dosyalar kullanıyor olsa da SQL veri tabanları kullananların oranı geçen yılda yüzde 10 puan büyüdü ve bu artış, veri bilimi için SQL'in önemini vurguluyor.

En çok hangi veri türlerini kullanıyorsunuz?

İşinizde sentetik veri kullanıyor musunuz?

Ankete katılan veri bilimcilerin çoğu, özel olarak toplanan verileri işliyor. En yaygın veri türleri; işlem verileri, zaman serisi verileri, görüntüler ve makine tarafından oluşturulan verilerdir. İlginç bir şekilde, %30'u sentetik verilerle çalışıyor; veriler gerçek dünyadaki olaylarla değil yapay olarak elde ediliyor.

Makine öğrenimi ya da derin öğrenme modelleri eğitiyor musunuz?

Makine öğrenimi veya derin öğrenme modelleri tüm katılımcıların yaklaşık %40 tarafından eğitilir. Ancak, bu rakam veri işlerini birincil aktivitesi olarak görenler arasında %60'ın üzerine çıkar. Bu sektör trendi, tahmine dayalı modellemenin veri işleriyle çalışmanın ana yönlerinden biri olacağına işaret ediyor.

Makine öğrenimi modellerinizi ne kadar sıklıkla yeniden eğitiyor veya güncelliyorsunuz?

27%

Ayda bir kereden fazla

23%

Aylık

18%

Üç aylık

7%

Yılda iki kez

7%

Yıllık

18%

Asla

Model eğitimine her ay ne kadar süre ayırıyorsunuz?

27%

0-5 saat

36%

5-20 saat

23%

20-50 saat

8%

50-100 saat

6%

100 saatten fazla

Veri bilimi profesyonellerinin yarısı makine öğrenimi modellerini ayda en az bir kez yeniden eğitiyor veya güncelliyor, ancak çoğu bu göreve ayda 20 saatten az zaman harcıyor.

Modellerinizi eğitimler için GPU'lar kullanıyor musunuz?

Veri bilimi profesyonellerinin çoğunluğu (%81) model eğitimi için GPU'ları kullanıyor. Grafik işlemcilerin etkili kullanımı eğitimi hızlandırıp model performansını artırabilir. Bu, GPU'ları araştırmacılar ve veri uzmanları için giderek daha çekici bir kaynak hâline getiriyor. Ayrıca bu, makine öğrenimi dünyasındaki teknolojik yeniliklerin önemini ve alaka düzeyini de ön plana çıkarıyor.

Makine öğrenimi görevleri için genellikle ne kadar VRAM'e ihtiyaç duyuyorsunuz?

28%

22%

8 GB

33%

29%

16 GB

23%

22%

32 GB

10%

14%

64 GB

5%

6%

128 GB

8%

128 GB'den fazla

Daha yüksek işlem gücü, makine öğrenimi görevleri için görünür bir tercih. Veri bilimi profesyonellerinin %80'i şu anda 16 GB veya daha fazla VRAM kullanırken 8 GB kullananların payı geçen yılda yüzde altı puan düştü.

Ne tür metotlar ve algoritmalar kullanıyorsunuz?

47%

Lineer veya mantıksal regresyon

47%

Nöral ağlar

38%

Karar araçları veya rastgele ormanlar

36%

Kümeleme yöntemleri

30%

NLP yöntemleri

25%

Bayesyen yaklaşımlar

24%

Dönüştürücü ağlar

Regresyon ve ağaç temelli yöntemler gibi temel makine öğrenimi algoritmaları yaygın bir şekilde kullanılmaya devam ediyor. Bununla birlikte, veri bilimi profesyonellerinin önemli bir kısmı nöral ağlar da kullanıyor. Dönüştürücü mimarilerin artan popülerliği ve kullanıcı dostu olması, katılımcıların %30'unun neden NLP işleri yaptığını açıklayabilir. İlginç bir şekilde, katılımcıların yalnızca %24'ü, işlerinin bir parçası olarak istatiksel testi kullandığını bildirdi. Bu veri, makine ve derin öğrenimin temel veri becerisi olarak klasik istatistiğin yerini aldığına işaret ediyor.

Hangi kurumsal makine öğrenimi çözümlerini kullanıyorsunuz?

13%

15%

Amazon SageMaker

9%

11%

Azure Machine Learning Studio

6%

9%

Vertex AI

4%

8%

IBM Watson Studio

4%

6%

Azure Databricks

Amazon hizmetleri en popüler kurumsal bulut çözümleri olarak öne çıkıyor. Dikkat çekici bir biçimde, geçen yıla kıyasla kurumsal makine öğreniminin benimsenmesinde önemli bir artış oldu (yüzden 10 puandan daha fazla).

Hangi makine öğrenimi çerçevelerini kullanıyorsunuz?

50%

TensorFlow

49%

scikit-learn

48%

PyTorch

30%

Keras

17%

XGBoost

9%

LightGBM

6%

fast.ai

TensorFlow, popülerlik açısından scikit-learn ve PyTorch'un biraz ilerisindedir; Keras ve XGBoost da sağlam benimseme oranları gösteriyor. İlginç bir şekilde, katılımcıların önemli bir kısmı (%19) özel bir çerçeve kullanmadıklarını bildirdi.

Model eğitimi denemelerini takip etmek için hangi araçları kullanıyorsunuz?

23%

TensorBoard

10%

MLFlow

7%

WandB

2%

Diğer

66%

Hiç

TensorBoard, %23 oranla en yaygın kullanılan araç. MLFlow %10 ve WandB %7 oranla onu takip ediyor. Ancak, veri bilimi profesyonellerinin üçte ikisi model eğitimi denemelerinin takibi için özel araçlar kullanmıyor.

Aşağıdakilerden hangisi organizasyonunuzdaki makine öğrenimi kullanımını en iyi şekilde açıklıyor?

47%

Ürünlerde veya hizmetlerde YZ tabanlı özellikleri kullanmak

30%

Yeni ürünler için araştırma ve geliştirmeye yardımcı olmak

28%

Üretim uygulamalarını geliştirmek

28%

Potansiyel uygulamaların araştırma / pilot çalışmalarını sürdürmek

25%

Kurumsal veriyi anlamayı iyileştirmek

22%

İşletme maliyetlerini azaltmak

21%

Diğer işletme işlevlerini desteklemek

Makine öğrenimi ve yapay zekâ, günlük iş hayatımızın vazgeçilmez bileşenleri hâline geldi, bu nedenle katılımcılarımızın yarısından fazlasının kullandıkları yazılıma entegre yapay zeka temelli çeşitli özellikler kullanması şaşırtıcı olmasa gerek.

Hangi kurumsal bulut çözümlerini kullanıyorsunuz?

30%

Amazon EC2

18%

AWS Lambda

17%

Azure Cloud Services

15%

Google Compute Engine

14%

Amazon Elastic Container Service

10%

Google Cloud Functions

8%

Google Cloud Run

Aşağıdaki veri temelli aktivitelerden hangileri sizin veya organizasyonunuz için yürütmesi en zor?

47%

Veri kalitesi

29%

Veri güvenliği ve yönetimi

28%

Veri hazırlama / dönüştürme

28%

Veri analizi

23%

Veri oluşturma / toplama

22%

Veri entegrasyonu

20%

Veri taşıma

Ortalama olarak, ekipleriniz zamanının yüzde kaçını verileri yönetmek, temizlemek veya etiketlemek için harcıyor?

Veri temizleme için hangi araçları kullanıyorsunuz?

47%

IDE'ler

27%

Bulut platformları

27%

E-tablolar

3%

OpenRefine gibi özel araçlar

5%

Diğer

29%

Veri temizleme yapmıyorum

Veri kalitesi, veriyle çalışan profesyoneller ve organizasyonlar için genel bir sorun çünkü yaklaşık %50'si zamanlarının %30'unu veya daha fazlasını veri hazırlamaya harcıyor. Bir Anaconda çalışması da veri temizlemenin veri profesyonellerinin iş akışının en zaman alıcı yönü olduğunu doğruluyor. Katılımcılarımızın neredeyse yarısı bu tür görevleri gerçekleştirmek için Entegre Geliştirme Ortamlarını (IDE'ler) tercih ediyor.

Veri Bilimi:

2023

Zaman ayırdığınız için teşekkür ederiz!

Raporumuzu faydalı bulduğunuzu umuyoruz. Bu raporu arkadaşlarınızla ve meslektaşlarınızla paylaşın.

Herhangi bir soru ya da öneriniz varsa lütfen bizimle surveys@jetbrains.com adresinden iletişime geçin.