Veri Bilimi
Paylaş:
Bu bölümdeki sorular İş Zekası, Veri Analizi, Veri Mühendisliği, Makine Öğrenimi alanlarında çalışan ya da Veri Analisti / Veri Mühendisi / Veri Bilimcisi ya da İş Analisti iş rolünde görev üstlenen geliştiricilere gösterildi.
Katılımcıların önemli bir kısmı veri bilimi sorumlulukları ile diğer aktiviteleri beraberinde yürütüyor. Bu sonuçlar, alanda demokratikleşme konusunda ilerleme olduğunu gösteriyor ve veri bilimi sektörünün büyümesi konusunda potansiyel fırsatlar olduğuna işaret ediyor.
PyCharm
Python, bilimsel kitaplıklar, etkileşimli Jupyter not defterleri, Anaconda, SQL ve NoSQL veritabanları ve daha fazlası için mükemmel destek sağlayan veri ardışık düzenleri oluşturmak, verileri analiz etmek, model prototipi oluşturmak ve ML modellerini dağıtmak için hepsi bir arada Python IDE.
Veri bilimi profesyonellerinin çoğunluğu, veri araştırması ve sunumu için denenmiş ve doğru grafikleri kullanmanın değerli olduğunu düşünüyor. Bu tür grafikler; veri toplama, keşif amaçlı veri analizi, veri düzenleme ve ML Ops gibi veriyle ilgili çeşitli görevlerde yaygın bir şekilde kullanılıyor.
Datalore
JetBrains'in sunduğu Datalore, ekipler için doğrudan tarayıcıdan erişilebilir, iş birliğine dayalı veri bilimi ve analiz platformudur. Datalore not defterleri Jupyter ile uyumludur ve Python, SQL, R ve Scala not defterleri için kodsuz görselleştirme ve veri hazırlığının yanı sıra akıllı kodlama yardımı sunar. Datalore'un Rapor oluşturma aracı, ekiplerin kod ve deneme dolu bir not defterini anlaşılır ve veriye dayalı bir hikâyeye dönüştürmesine olanak sağlar. Ekipler not defterlerini paylaşabilir, gerçek zamanlı olarak birlikte düzenleyebilir ve çalışma alanında projelerini organize edebilir.
Tüm ekiplerin ve departmanların neredeyse yarısında özel bir Veri Mühendisi veya Makine Öğrenimi Mühendisi var.
Veri Bilimci, Veri Mühendisi ve Makine Öğrenimi Mühendisi gibi özel roller, iş piyasasına nispeten yeni eklenen meslekler. Çoğu katılımcı bu rollere bağlantılı alanlardan geçiş yapıyor ve geçiş nedeniyle kendi kendilerine çalışarak veya çevrimiçi kurslarla yeni beceriler edinmek durumunda kalıyor.
Veri bilimi profesyonellerinin çoğunluğu not defterlerinin sürümünü oluşturmuyor, önemli bir kısmı (%41) sürüm oluşturuyor ve çoğu sürüm oluşturmak için Git veya GitHub'ı kullanıyor.
Jupyter not defterlerinin çeşitli uygulamaları veri biliminde oldukça popüler; keşif amaçlı veri analizi, veri denemeleri, veri sorgulama ve model prototipi oluşturma gibi yaygın kullanım durumları vardır. Veri bilimi profesyonellerinin yaklaşık %40'ı iş sonuçlarını sunmak için Jupyter not defterlerini kullanıyor, ancak ilginç bir şekilde çoğu (neredeyse %50'si) Jupyter not defterlerini kullanmak için zamanlarının yalnızca %10–%20'sini harcıyor.
Çoğunluk yerel dosyalar kullanıyor olsa da SQL veri tabanları kullananların oranı geçen yılda yüzde 10 puan büyüdü ve bu artış, veri bilimi için SQL'in önemini vurguluyor.
Ankete katılan veri bilimcilerin çoğu, özel olarak toplanan verileri işliyor. En yaygın veri türleri; işlem verileri, zaman serisi verileri, görüntüler ve makine tarafından oluşturulan verilerdir. İlginç bir şekilde, %30'u sentetik verilerle çalışıyor; veriler gerçek dünyadaki olaylarla değil yapay olarak elde ediliyor.
Makine öğrenimi veya derin öğrenme modelleri tüm katılımcıların yaklaşık %40 tarafından eğitilir. Ancak, bu rakam veri işlerini birincil aktivitesi olarak görenler arasında %60'ın üzerine çıkar. Bu sektör trendi, tahmine dayalı modellemenin veri işleriyle çalışmanın ana yönlerinden biri olacağına işaret ediyor.
Veri bilimi profesyonellerinin yarısı makine öğrenimi modellerini ayda en az bir kez yeniden eğitiyor veya güncelliyor, ancak çoğu bu göreve ayda 20 saatten az zaman harcıyor.
Veri bilimi profesyonellerinin çoğunluğu (%81) model eğitimi için GPU'ları kullanıyor. Grafik işlemcilerin etkili kullanımı eğitimi hızlandırıp model performansını artırabilir. Bu, GPU'ları araştırmacılar ve veri uzmanları için giderek daha çekici bir kaynak hâline getiriyor. Ayrıca bu, makine öğrenimi dünyasındaki teknolojik yeniliklerin önemini ve alaka düzeyini de ön plana çıkarıyor.
Daha yüksek işlem gücü, makine öğrenimi görevleri için görünür bir tercih. Veri bilimi profesyonellerinin %80'i şu anda 16 GB veya daha fazla VRAM kullanırken 8 GB kullananların payı geçen yılda yüzde altı puan düştü.
Regresyon ve ağaç temelli yöntemler gibi temel makine öğrenimi algoritmaları yaygın bir şekilde kullanılmaya devam ediyor. Bununla birlikte, veri bilimi profesyonellerinin önemli bir kısmı nöral ağlar da kullanıyor. Dönüştürücü mimarilerin artan popülerliği ve kullanıcı dostu olması, katılımcıların %30'unun neden NLP işleri yaptığını açıklayabilir. İlginç bir şekilde, katılımcıların yalnızca %24'ü, işlerinin bir parçası olarak istatiksel testi kullandığını bildirdi. Bu veri, makine ve derin öğrenimin temel veri becerisi olarak klasik istatistiğin yerini aldığına işaret ediyor.
Amazon hizmetleri en popüler kurumsal bulut çözümleri olarak öne çıkıyor. Dikkat çekici bir biçimde, geçen yıla kıyasla kurumsal makine öğreniminin benimsenmesinde önemli bir artış oldu (yüzden 10 puandan daha fazla).
TensorFlow, popülerlik açısından scikit-learn ve PyTorch'un biraz ilerisindedir; Keras ve XGBoost da sağlam benimseme oranları gösteriyor. İlginç bir şekilde, katılımcıların önemli bir kısmı (%19) özel bir çerçeve kullanmadıklarını bildirdi.
TensorBoard, %23 oranla en yaygın kullanılan araç. MLFlow %10 ve WandB %7 oranla onu takip ediyor. Ancak, veri bilimi profesyonellerinin üçte ikisi model eğitimi denemelerinin takibi için özel araçlar kullanmıyor.
Makine öğrenimi ve yapay zekâ, günlük iş hayatımızın vazgeçilmez bileşenleri hâline geldi, bu nedenle katılımcılarımızın yarısından fazlasının kullandıkları yazılıma entegre yapay zeka temelli çeşitli özellikler kullanması şaşırtıcı olmasa gerek.
Veri kalitesi, veriyle çalışan profesyoneller ve organizasyonlar için genel bir sorun çünkü yaklaşık %50'si zamanlarının %30'unu veya daha fazlasını veri hazırlamaya harcıyor. Bir Anaconda çalışması da veri temizlemenin veri profesyonellerinin iş akışının en zaman alıcı yönü olduğunu doğruluyor. Katılımcılarımızın neredeyse yarısı bu tür görevleri gerçekleştirmek için Entegre Geliştirme Ortamlarını (IDE'ler) tercih ediyor.
Zaman ayırdığınız için teşekkür ederiz!
Raporumuzu faydalı bulduğunuzu umuyoruz. Bu raporu arkadaşlarınızla ve meslektaşlarınızla paylaşın.
Herhangi bir soru ya da öneriniz varsa lütfen bizimle surveys@jetbrains.com adresinden iletişime geçin.