Veri Bilimi

Paylaş:

Bu bölümdeki sorular İş Zekası, Veri Analizi, Veri Mühendisliği, Makine Öğrenimi alanlarında çalışan ya da Veri Analisti / Veri Mühendisi / Veri Bilimcisi ya da İş Analisti iş rolünde görev üstlenen geliştiricilere gösterildi.

Sizin için veri bilimi, veri analizi, veri mühendisliği ya da makine öğrenimi ne tür aktivitelerden oluşur?

Katılımcıların oldukça büyük bir kısmı veri bilimi sorumlulukları ile diğer aktiviteleri beraberinde yürütüyor. Bu sonuçlar, camiada demokratikleşme ve pazarın büyümesi için potansiyel olduğunu gösteriyor.

Aşağıdaki aktivitelerden hangileriyle ilgileniyorsunuz?

JetBrains'te ekipler için iş birliğine dayalı veri bilimi platformu Datalore'u geliştirdik. Datalore, veri uzmanları için mükemmel kodlama deneyimi sunarken ayrıca veri keşfi ve görselleştirme iş akışları için kodsuz otomasyonlar sağlar. Bu, teknik olmayan rollerdeki kullanıcıların bile temel veri ekibiyle aynı aracı kullanarak tek seferlik raporlama ve veri görselleştirme yapabileceği anlamına gelir.

Veri bilimi, makine öğrenimi veya veri mühendisliğini nasıl öğrendiniz?

Veri Bilimcisi, Veri Mühendisi, Makine Öğrenimi Mühendisi gibi özel veri uzmanı pozisyonları nispeten yeni. Katılımcılarımızın birçoğu yan alanlarda çalıştıktan veya eğitim aldıktan sonra bu rollere geçmiş. Bu nedenle, bireysel çalışma ya da çevrimiçi kurslarla becerilerini geliştirmeleri gerekmiş. STEM'de lisans üstü dereceler, geleneksel olarak veri bilimi veya makine öğrenimine geçiş için en yaygın izlenen yol. Geçen yedi yıldaki trendler, bu alanlarda çalışan daha fazla sayıda kişinin lisans programıyla girdiğini gösteriyor. 2015'te %20 olan oran 2021'de %31'e yükseldi. Veri becerilerinde uzmanlık sağlayan yeni lisans programlarından mezun kişilerin sayısı arttıkça bu sonuçların bahsi geçen becerileri örgün eğitim yoluyla edinen kişilerin lehinde değiştiğini görebiliriz.

Veri bilimi veya veri analizi için hangi IDE'leri veya düzenleyicileri kullanıyorsunuz?

Jupyter not defterleri, veri bilimi ve veri analizi işleri için en çok tercih edilen düzenleyici oldu. Katılımcılardan %40'ı bu aktiviteler için not defterlerini kullandığını belirtti. Bu sonuç; veri toplama ve görselleştirme, keşif veri analizi ya da makine öğrenimi modelleme için %70'inin Jupyter not defterleri kullandıklarını belirten katılımcılar arasında bile daha yüksekti.

Son araştırmamızdan bu konu hakkında daha fazla bilgi edinin. 2019'dan 2020'ye kadar Python 3 not defterlerinin sayısının %87 oranında, Python 2 not defterlerinin ise %12 oranında arttığını tespit ettik.

Not defterlerine çalışma zamanınızın ne kadarını ayırıyorsunuz?

Not defterlerini hangi amaçla kullanıyorsunuz?

Jupyter not defterleri, en popüler araç seçimi olmaya devam ediyor. Katılımcıların %42'si bu araçları kullanırken, veri alıntılama yapanların %50'den fazlası ana aktiviteleri olarak çalışıyor. Bu araç, başlıca veri keşfetme ve model prototipleri oluşturma gibi keşif işleri için kullanılır. Ancak asıl olarak veri uzmanı olarak çalışanlar arasında bile yalnızca katılımcıların küçük bir kısmı çalışma zamanlarının %40'ından fazlasında not defterlerini kullanıyor.

Not defterlerinizin sürümlerini tutuyor musunuz?

Hangi versiyonlama araçlarını kullanıyorsunuz?

Kendi not defterlerini versiyonlayanların yüzdesi oldukça yüksek. Bu, veri profesyonellerinin büyük bir kısmının not defterlerini korumaları gereken kod gibi gördüklerini gösterdiğinden iyiye işaret. Not defterlerini versiyonlayanlar arasında en popüler araçlar Git ve GitHub.

Jupyter not defterlerini Git satır içi arayüzü (CLI) ile versiyonlamak zor olabilir. Şanslı bir şekilde, DataSpell Git ile çalışmak için depo ayarlama, not defterleri ekleme ve aktarma ve not defterlerini kaydetme sayısı arasındaki farkları görüntüleme gibi kullanıcı arayüzü üzerinden temel görevleri gerçekleştirmeyi daha kolay hale getiren çok çeşitli özelliklere sahip. Bu görevlerin tümünü tek bir Git komutunu bile hatırlamanıza gerek kalmadan yapabilirsiniz! DataSpell'de Git'i Jupyter not defterleri ile kullanmayı öğrenmek için bu makaleyi inceleyin.

Ne tür veri kaynaklarıyla çalışıyorsunuz?

Yerel dosyalara ek olarak SQL veritabanları, veri uzmanları arasında en yaygın kullanılan veri kaynaklarıdır.

Araştırmalarınızın sonuçlarını sunmak için hangi araçları kullanıyorsunuz?

Datalore ile Jupyter not defterlerini saniyeler içinde harika veri uygulamalarına dönüştürebilirsiniz. Tuvaldeki hücreleri düzenleyin ve sonucu Statik veya İnteraktif modda yayınlayın. Paydaşlarınız bağlantı üzerinden rapora erişebilir.

Raporu görüntüle

Ne tür metotlar ve algoritmalar kullanıyorsunuz?

Regresyon ve ağaç temelli yöntemler gibi temel makine öğrenimi algoritmaları yaygın bir şekilde kullanılmaya devam ediyor. Bununla birlikte, katılımcıların çoğu dönüştürücü mimariler başta olmak üzere nöral ağlar da kullanıyor. İyileşen kullanım kolaylığı ve dönüştürücü ağların artan popülerliği, katılımcıların dörtte birinden fazlasının neden NLP işleri yaptığını açıklayabilir. İlginç bir şekilde, katılımcıların yalnızca beşte biri, işlerinin bir parçası olarak istatiksel testi kullandığını bildirdi. Bu bilgi, makine ve derin öğrenimin temel veri becerisi olarak klasik istatistiğin yerini aldığını öneriyor.

Hangi makine öğrenimi çerçevelerini kullanıyorsunuz?

TensorFlow, tüm katılımcılar arasında en popüler derin öğrenme çerçevesi olmasına rağmen TensorFlow ve PyTorch ana aktiviteleri olarak veri işleri yapan katılımcılar arasında eşit oranda kullanılır. Scikit-learn, en popüler makine öğrenimi kitaplığıdır ancak XGBoost ve LightGBM gibi ağaç temelli modelleme için uzman paketler ve çerçeveler katılımcıların önemli ölçüde küçük bir kısmı tarafından kullanılır.

Hangi kurumsal makine öğrenimi çözümlerini kullanıyorsunuz?

Amazon hizmetleri, en popüler kurumsal bulut çözümleridir.

Kendiniz dahil olmak üzere veri ekibinizin kaç üyesi var?

Katılımcıların çoğunluğu (%70) bir ekipte 10 kişiden az küçük gruplarda çalışıyor. Beş katılımcıdan biri 15'ten fazla veri uzmanı olan ekiplerde çalışıyor.

Ekibinizde veya veri departmanınızda özel bir Veri Mühendisi rolü var mı?

Ekiplerin veya departmanların yaklaşık %50'si özel bir Veri Mühendisi pozisyonuna sahip.

Ekibinizde veya veri departmanınızda özel bir Makine Öğrenimi Mühendisi rolü var mı?

Katılımcıların %50'sinden fazlası ekiplerinde ya veri mühendisleri ya da makine öğrenimi mühendisleri olduğunu bildirdi. Hem Veri Mühendisi hem de ML Mühendisi şirkete göre büyük ölçüde farklılık gösterebilen kapsamlı unvanlar olduğundan, bu rollerde çalışanlar model dağıtımı ve veri ardışık düzeni yönetimi gibi makine öğrenimine ilişkin benzer görevlerden sorumlu olabiliyor. Beklendiği üzere, ekip ne kadar büyükse bu rollerden birinde çalışan kişilerin olma ihtimali de o kadar yüksek. Veri ekiplerinde 1-2 üyesi olan katılımcıların %80'den fazlasının ya özel bir veri mühendisi ya da ML mühendisi yokken 15 kişiden fazla veri ekipleri olan katılımcıların %79'unun özel veri mühendisleri ve %65'inin ML mühendisleri var.

Makine öğrenimi ya da derin öğrenme modelleri eğitiyor musunuz?

Katılımcıların yalnızca yarısından azı makine veya derin öğrenme modelleri eğitirken bu rakam ana aktiviteleri olarak veri işi yürüten katılımcılar arasında %60'a kadar yükseliyor. Bu veri, sektörde tahmin modellemesinin veri işleminin temel bileşenlerinden biri olacağını gösteriyor.

Modellerinizi eğitimler için GPU'lar kullanıyor musunuz?

Makine öğrenimi görevleri için genellikle ne kadar VRAM'e ihtiyaç duyuyorsunuz?

Çoğu katılımcı makine veya derin öğrenme modellerini eğitmek için GPU kullandığını belirtti. VRAM gereksinimi, katılımcıların veri işlerini nasıl yürüttüğüne bağlı olarak değişiyor. Ana iş aktivitesi olarak veri işleri yürüten yalnızca %18'lik kesimle kıyaslandığında, hobi ya da eğitim amacıyla veri işleri yürüten katılımcıların %40'ı 8 GB'ın yeterli olduğunu belirtti.

Model eğitimine aylık ne kadar süre ayırıyorsunuz?

Çoğu katılımcı model eğitimi için haftada 20 saate kadar vakit ayırdığını belirtti, buna muhtemelen bir gecelik model eğitimi de dahil. Yaklaşık üçte biri, model eğitmek için haftalık 5 saat veya daha az zaman ayırıyor. Bu, model eğitiminin veri bilimi işinin görece küçük bir parçasını oluşturduğunu ve zamanın büyük bir kısmının veri hazırlama ve keşfi için harcandığını gösteren önceki sonuçlarla tutarlı.

Veri bilimi görevleri için ne tür hesaplama kaynakları kullanıyorsunuz?

Anketimizdeki diğer yanıtlar, not defterlerinde yapılan ana aktivitenin veri keşfi ve görselleştirme olduğunu ve katılımcıların çoğunun yerel dosyalarda çalıştığını ve veri bilimi işlerini tamamlamak için yerel kaynakları da kullandığını gösteriyor. Şaşırtıcı olarak bu bulgu, katılımcıların veri işlerini nasıl yaptıklarına bağlı olarak değişiklik göstermiyor. Ana aktiviteleri olarak veri işleriyle uğraşan kişiler de yerel kaynakları hobi olarak ya da eğitim amaçları için kullananlar kadar kullanıyor.

Model eğitimi denemelerini takip etmek için hangi özel araçları kullanıyorsunuz?

Katılımcıların büyük bir kısmı model eğitim deneylerinin performansını takip etmek için herhangi bir araç kullanmadığını belirtti. Ancak bu tarz araçların kullanılma ihtimali, 15 veya daha fazla kişiden oluşan ekiplerde (bu büyüklükteki ekiplerden katılımcıların %58'i en az bir tane kullanıyor), özel bir Makine Öğrenimi Mühendisi (%62) bulunan ekiplerde ya da katılımcı makine öğrenimi modelleme ve Makine Öğrenimi Operasyonları işleriyle ilgileniyorsa (%63) daha yüksektir. Bu, bu tarz araçların makine öğrenimi modeli geliştirmeyle ilgili uzman bilgisinin olduğu ortamlarda kullanılma eğiliminin olduğunu gösteriyor.

Veri görselleştirme için genellikle hangi tabloları kullanıyorsunuz?

Veri keşfetmek ve sunmak için basit fakat anlamlı grafikler, veri uzmanlarının çoğu tarafından kullanıldı. Bu grafikler, veri toplama ve keşif amaçlı veri analizinden veri akışı düzenleme ve ML Operasyonlarına kadar dahil oldukları veri aktivitesi türünden bağımsız olarak katılımcıların büyük bir kısmı tarafından kullanıldı.

Veri Bilimi:

2022

Zaman ayırdığınız için teşekkür ederiz!

Raporumuzu faydalı bulduğunuzu umuyoruz. Bu raporu arkadaşlarınızla ve meslektaşlarınızla paylaşın.

Herhangi bir soru ya da öneriniz varsa lütfen bizimle surveys@jetbrains.com adresinden iletişime geçin.