Veri Bilimi

Paylaş:

Bu bölümdeki sorular İş Zekası, Veri Analizi, Veri Mühendisliği, Makine Öğrenimi alanlarında çalışan ya da Veri Analisti / Veri Mühendisi / Veri Bilimcisi ya da İş Analisti iş rolünde görev üstlenen geliştiricilere gösterildi.

Sizin için veri bilimi, veri analizi, veri mühendisliği ya da makine öğrenimi ne tür aktivitelerden oluşur?

Katılımcıların oldukça büyük bir kısmı veri bilimi sorumlulukları ile diğer aktiviteleri beraberinde yürütüyor. Bu sonuçlar, camiada demokratikleşme ve pazarın büyümesi için potansiyel olduğunu gösteriyor.

Aşağıdaki aktivitelerden hangileriyle ilgileniyorsunuz?

54%

Veri görselleştirme

50%

Veri toplama/veri kopyalama

42%

Makine öğrenimi modelleme

38%

Keşif amaçlı veri analizi

32%

Veri ardışık düzenleri

21%

Depolama mimarisi

19%

Veri Düzenleme

15%

Makine Öğrenimi İşlemleri

1%

Diğer

9%

Hiçbiri

JetBrains'te ekipler için iş birliğine dayalı veri bilimi platformu Datalore'u geliştirdik. Datalore, veri uzmanları için mükemmel kodlama deneyimi sunarken ayrıca veri keşfi ve görselleştirme iş akışları için kodsuz otomasyonlar sağlar. Bu, teknik olmayan rollerdeki kullanıcıların bile temel veri ekibiyle aynı aracı kullanarak tek seferlik raporlama ve veri görselleştirme yapabileceği anlamına gelir.

Veri bilimi, makine öğrenimi veya veri mühendisliğini nasıl öğrendiniz?

63%

Bağımsız olarak çalıştım

40%

Üniversitede programlama veya veri analizi üzerine eğitim aldım

32%

Çevimiçi eğitimler tamamladım

17%

Yazılım mühendisliği rolünden geçiş yaptım

3%

Diğer

Veri Bilimcisi, Veri Mühendisi, Makine Öğrenimi Mühendisi gibi özel veri uzmanı pozisyonları nispeten yeni. Katılımcılarımızın birçoğu yan alanlarda çalıştıktan veya eğitim aldıktan sonra bu rollere geçmiş. Bu nedenle, bireysel çalışma ya da çevrimiçi kurslarla becerilerini geliştirmeleri gerekmiş. STEM'de lisans üstü dereceler, geleneksel olarak veri bilimi veya makine öğrenimine geçiş için en yaygın izlenen yol. Geçen yedi yıldaki trendler, bu alanlarda çalışan daha fazla sayıda kişinin lisans programıyla girdiğini gösteriyor. 2015'te %20 olan oran 2021'de %31'e yükseldi. Veri becerilerinde uzmanlık sağlayan yeni lisans programlarından mezun kişilerin sayısı arttıkça bu sonuçların bahsi geçen becerileri örgün eğitim yoluyla edinen kişilerin lehinde değiştiğini görebiliriz.

Veri bilimi veya veri analizi için hangi IDE'leri veya düzenleyicileri kullanıyorsunuz?

42%

Jupyter Notebook

41%

Visual Studio Code

31%

PyCharm Professional

19%

Google Colab

17%

JupyterLab

14%

DataGrip

9%

Kaggle

Jupyter not defterleri, veri bilimi ve veri analizi işleri için en çok tercih edilen düzenleyici oldu. Katılımcılardan %40'ı bu aktiviteler için not defterlerini kullandığını belirtti. Bu sonuç; veri toplama ve görselleştirme, keşif veri analizi ya da makine öğrenimi modelleme için %70'inin Jupyter not defterleri kullandıklarını belirten katılımcılar arasında bile daha yüksekti.

Son araştırmamızdan bu konu hakkında daha fazla bilgi edinin. 2019'dan 2020'ye kadar Python 3 not defterlerinin sayısının %87 oranında, Python 2 not defterlerinin ise %12 oranında arttığını tespit ettik.

Not defterlerine çalışma zamanınızın ne kadarını ayırıyorsunuz?

11%

Not defterleri kullanmıyorum

48%

%10-20

23%

%20-40

18%

%40'tan fazla

Not defterlerini hangi amaçla kullanıyorsunuz?

69%

Keşif amaçlı veri analizi

68%

Veriler/veri sorgulama üzerinde denemeler

64%

Görselleştirme

43%

Model prototipi oluşturma

9%

Düzenleme

2%

Diğer

Jupyter not defterleri, en popüler araç seçimi olmaya devam ediyor. Katılımcıların %42'si bu araçları kullanırken, veri alıntılama yapanların %50'den fazlası ana aktiviteleri olarak çalışıyor. Bu araç, başlıca veri keşfetme ve model prototipleri oluşturma gibi keşif işleri için kullanılır. Ancak asıl olarak veri uzmanı olarak çalışanlar arasında bile yalnızca katılımcıların küçük bir kısmı çalışma zamanlarının %40'ından fazlasında not defterlerini kullanıyor.

Not defterlerinizin sürümlerini tutuyor musunuz?

Hangi versiyonlama araçlarını kullanıyorsunuz?

66%

Git

62%

GitHub

22%

GitLab

18%

Düzenleyicimde/IDE aracı içinde sürüm oluşturuyorum

9%

Not defterlerimin farklı kopyalarını oluşturuyorum

2%

Diğer

Kendi not defterlerini versiyonlayanların yüzdesi oldukça yüksek. Bu, veri profesyonellerinin büyük bir kısmının not defterlerini korumaları gereken kod gibi gördüklerini gösterdiğinden iyiye işaret. Not defterlerini versiyonlayanlar arasında en popüler araçlar Git ve GitHub.

Jupyter not defterlerini Git satır içi arayüzü (CLI) ile versiyonlamak zor olabilir. Şanslı bir şekilde, DataSpell Git ile çalışmak için depo ayarlama, not defterleri ekleme ve aktarma ve not defterlerini kaydetme sayısı arasındaki farkları görüntüleme gibi kullanıcı arayüzü üzerinden temel görevleri gerçekleştirmeyi daha kolay hale getiren çok çeşitli özelliklere sahip. Bu görevlerin tümünü tek bir Git komutunu bile hatırlamanıza gerek kalmadan yapabilirsiniz! DataSpell'de Git'i Jupyter not defterleri ile kullanmayı öğrenmek için bu makaleyi inceleyin.

Ne tür veri kaynaklarıyla çalışıyorsunuz?

67%

Yerel dosyalar

52%

SQL DB'leri

24%

​​Amazon S3

19%

Büyük Veri

14%

Google Dosya Depolama

8%

Azure Dosya Depolama

5%

Diğer

Yerel dosyalara ek olarak SQL veritabanları, veri uzmanları arasında en yaygın kullanılan veri kaynaklarıdır.

Araştırmalarınızın sonuçlarını sunmak için hangi araçları kullanıyorsunuz?

41%

PowerPoint, Google slaytlar vb.

40%

Not defterini sunuyorum

37%

E-tablo düzenleyici

25%

MS Word, Google Dokümanlar vb.

14%

Microsoft Power BI

11%

Tableau

6%

Plotly Dash

3%

Streamlit

1%

Qlick

1%

Voila

11%

Diğer

Datalore ile Jupyter not defterlerini saniyeler içinde harika veri uygulamalarına dönüştürebilirsiniz. Tuvaldeki hücreleri düzenleyin ve sonucu Statik veya İnteraktif modda yayınlayın. Paydaşlarınız bağlantı üzerinden rapora erişebilir.

Raporu görüntüle

Ne tür metotlar ve algoritmalar kullanıyorsunuz?

55%

Nöral ağlar

50%

Lineer veya mantıksal regresyon

37%

Karar araçları veya rastgele ormanlar

34%

Kümeleme yöntemleri

27%

NLP yöntemleri

23%

Bayesyen yaklaşımlar

21%

İstatiksel test

Regresyon ve ağaç temelli yöntemler gibi temel makine öğrenimi algoritmaları yaygın bir şekilde kullanılmaya devam ediyor. Bununla birlikte, katılımcıların çoğu dönüştürücü mimariler başta olmak üzere nöral ağlar da kullanıyor. İyileşen kullanım kolaylığı ve dönüştürücü ağların artan popülerliği, katılımcıların dörtte birinden fazlasının neden NLP işleri yaptığını açıklayabilir. İlginç bir şekilde, katılımcıların yalnızca beşte biri, işlerinin bir parçası olarak istatiksel testi kullandığını bildirdi. Bu bilgi, makine ve derin öğrenimin temel veri becerisi olarak klasik istatistiğin yerini aldığını öneriyor.

Hangi makine öğrenimi çerçevelerini kullanıyorsunuz?

55%

TensorFlow

47%

Scikit-learn

45%

PyTorch

31%

Keras

14%

XGBoost

7%

LightGBM

5%

fast.ai

TensorFlow, tüm katılımcılar arasında en popüler derin öğrenme çerçevesi olmasına rağmen TensorFlow ve PyTorch ana aktiviteleri olarak veri işleri yapan katılımcılar arasında eşit oranda kullanılır. Scikit-learn, en popüler makine öğrenimi kitaplığıdır ancak XGBoost ve LightGBM gibi ağaç temelli modelleme için uzman paketler ve çerçeveler katılımcıların önemli ölçüde küçük bir kısmı tarafından kullanılır.

Hangi kurumsal makine öğrenimi çözümlerini kullanıyorsunuz?

13%

Amazon Sagemaker

9%

Azure Machine Learning Studio

6%

Vertex AI

4%

Azure DataBricks

4%

IBM Watson Studio

2%

Gradient

2%

H2O

Amazon hizmetleri, en popüler kurumsal bulut çözümleridir.

Kendiniz dahil olmak üzere veri ekibinizin kaç üyesi var?

16%

1-2

33%

3 - 5

24%

6-10

9%

11-15

18%

15'ten fazla

Katılımcıların çoğunluğu (%70) bir ekipte 10 kişiden az küçük gruplarda çalışıyor. Beş katılımcıdan biri 15'ten fazla veri uzmanı olan ekiplerde çalışıyor.

Ekibinizde veya veri departmanınızda özel bir Veri Mühendisi rolü var mı?

Ekiplerin veya departmanların yaklaşık %50'si özel bir Veri Mühendisi pozisyonuna sahip.

Ekibinizde veya veri departmanınızda özel bir Makine Öğrenimi Mühendisi rolü var mı?

Katılımcıların %50'sinden fazlası ekiplerinde ya veri mühendisleri ya da makine öğrenimi mühendisleri olduğunu bildirdi. Hem Veri Mühendisi hem de ML Mühendisi şirkete göre büyük ölçüde farklılık gösterebilen kapsamlı unvanlar olduğundan, bu rollerde çalışanlar model dağıtımı ve veri ardışık düzeni yönetimi gibi makine öğrenimine ilişkin benzer görevlerden sorumlu olabiliyor. Beklendiği üzere, ekip ne kadar büyükse bu rollerden birinde çalışan kişilerin olma ihtimali de o kadar yüksek. Veri ekiplerinde 1-2 üyesi olan katılımcıların %80'den fazlasının ya özel bir veri mühendisi ya da ML mühendisi yokken 15 kişiden fazla veri ekipleri olan katılımcıların %79'unun özel veri mühendisleri ve %65'inin ML mühendisleri var.

Makine öğrenimi ya da derin öğrenme modelleri eğitiyor musunuz?

Katılımcıların yalnızca yarısından azı makine veya derin öğrenme modelleri eğitirken bu rakam ana aktiviteleri olarak veri işi yürüten katılımcılar arasında %60'a kadar yükseliyor. Bu veri, sektörde tahmin modellemesinin veri işleminin temel bileşenlerinden biri olacağını gösteriyor.

Modellerinizi eğitimler için GPU'lar kullanıyor musunuz?

Makine öğrenimi görevleri için genellikle ne kadar VRAM'e ihtiyaç duyuyorsunuz?

28%

8 GB

33%

16 GB

23%

32 GB

10%

64 GB

5%

128 GB

Çoğu katılımcı makine veya derin öğrenme modellerini eğitmek için GPU kullandığını belirtti. VRAM gereksinimi, katılımcıların veri işlerini nasıl yürüttüğüne bağlı olarak değişiyor. Ana iş aktivitesi olarak veri işleri yürüten yalnızca %18'lik kesimle kıyaslandığında, hobi ya da eğitim amacıyla veri işleri yürüten katılımcıların %40'ı 8 GB'ın yeterli olduğunu belirtti.

Model eğitimine aylık ne kadar süre ayırıyorsunuz?

30%

0-5 saat

33%

5-20 saat

21%

20-50 saat

8%

50-100 saat

8%

100 saatten fazla

Çoğu katılımcı model eğitimi için haftada 20 saate kadar vakit ayırdığını belirtti, buna muhtemelen bir gecelik model eğitimi de dahil. Yaklaşık üçte biri, model eğitmek için haftalık 5 saat veya daha az zaman ayırıyor. Bu, model eğitiminin veri bilimi işinin görece küçük bir parçasını oluşturduğunu ve zamanın büyük bir kısmının veri hazırlama ve keşfi için harcandığını gösteren önceki sonuçlarla tutarlı.

Veri bilimi görevleri için ne tür hesaplama kaynakları kullanıyorsunuz?

61%

Yerel kaynaklar

29%

Şirket içi sunucular

22%

Amazon Web Services

13%

Google Cloud Platform

9%

Microsoft Azure

3%

Diğer

14%

Hiçbiri

Anketimizdeki diğer yanıtlar, not defterlerinde yapılan ana aktivitenin veri keşfi ve görselleştirme olduğunu ve katılımcıların çoğunun yerel dosyalarda çalıştığını ve veri bilimi işlerini tamamlamak için yerel kaynakları da kullandığını gösteriyor. Şaşırtıcı olarak bu bulgu, katılımcıların veri işlerini nasıl yaptıklarına bağlı olarak değişiklik göstermiyor. Ana aktiviteleri olarak veri işleriyle uğraşan kişiler de yerel kaynakları hobi olarak ya da eğitim amaçları için kullananlar kadar kullanıyor.

Model eğitimi denemelerini takip etmek için hangi özel araçları kullanıyorsunuz?

23%

TensorBoard

8%

MLflow

4%

WandB

2%

Diğer

69%

Hiçbiri

Katılımcıların büyük bir kısmı model eğitim deneylerinin performansını takip etmek için herhangi bir araç kullanmadığını belirtti. Ancak bu tarz araçların kullanılma ihtimali, 15 veya daha fazla kişiden oluşan ekiplerde (bu büyüklükteki ekiplerden katılımcıların %58'i en az bir tane kullanıyor), özel bir Makine Öğrenimi Mühendisi (%62) bulunan ekiplerde ya da katılımcı makine öğrenimi modelleme ve Makine Öğrenimi Operasyonları işleriyle ilgileniyorsa (%63) daha yüksektir. Bu, bu tarz araçların makine öğrenimi modeli geliştirmeyle ilgili uzman bilgisinin olduğu ortamlarda kullanılma eğiliminin olduğunu gösteriyor.

Veri görselleştirme için genellikle hangi tabloları kullanıyorsunuz?

60%

Çizgi grafik

56%

Histogram

55%

Scatterplot

50%

Çubuk grafik

29%

Yığılı çubuk grafik

27%

Gruplandırılmış çubuk grafik

12%

Keman grafiği

4%

Diğer

13%

Hiçbiri

Veri keşfetmek ve sunmak için basit fakat anlamlı grafikler, veri uzmanlarının çoğu tarafından kullanıldı. Bu grafikler, veri toplama ve keşif amaçlı veri analizinden veri akışı düzenleme ve ML Operasyonlarına kadar dahil oldukları veri aktivitesi türünden bağımsız olarak katılımcıların büyük bir kısmı tarafından kullanıldı.

Veri Bilimi:

2022

Zaman ayırdığınız için teşekkür ederiz!

Raporumuzu faydalı bulduğunuzu umuyoruz. Bu raporu arkadaşlarınızla ve meslektaşlarınızla paylaşın.

Herhangi bir soru ya da öneriniz varsa lütfen bizimle surveys@jetbrains.com adresinden iletişime geçin.