Veri Bilimi

Paylaş:

Bu bölümdeki sorular İş Zekası, Veri Analizi, Veri Mühendisliği, Makine Öğrenimi alanlarında çalışan ya da Veri Analisti / Veri Mühendisi / Veri Bilimcisi ya da İş Analisti iş rolünde görev üstlenen geliştiricilere gösterildi.

Sizin için veri bilimi, veri analizi ya da makine öğrenimi ne tür aktivitelerden oluşur?

Katılımcıların önemli bir kısmı veri bilimi sorumlulukları ile diğer aktiviteleri beraberinde yürütüyor. Bu sonuçlar, alanda demokratikleşme konusunda ilerleme olduğunu gösteriyor ve veri bilimi sektörünün büyümesi konusunda potansiyel fırsatlar olduğuna işaret ediyor.

Ekibinizde veya veri departmanınızda özel bir Makine Öğrenimi Mühendisi rolü var mı?

PyCharm

Python, bilimsel kitaplıklar, etkileşimli Jupyter not defterleri, Anaconda, SQL ve NoSQL veritabanları ve daha fazlası için mükemmel destek sağlayan veri ardışık düzenleri oluşturmak, verileri analiz etmek, model prototipi oluşturmak ve ML modellerini dağıtmak için hepsi bir arada Python IDE.

Hangi veri türlerini analiz ediyorsunuz?

Aşağıdaki aktivitelerden hangileriyle ilgileniyorsunuz?

Veri görselleştirme için en çok hangi grafik türlerini kullanıyorsunuz?

Veri bilimi profesyonellerinin çoğunluğu, veri araştırması ve sunumu için denenmiş ve doğru grafikleri kullanmanın değerli olduğunu düşünüyor. Bu tür grafikler; veri toplama, keşif amaçlı veri analizi, veri düzenleme ve ML Ops gibi veriyle ilgili çeşitli görevlerde yaygın bir şekilde kullanılıyor.

Datalore

JetBrains'in sunduğu Datalore, ekipler için doğrudan tarayıcıdan erişilebilir, iş birliğine dayalı veri bilimi ve analiz platformudur. Datalore not defterleri Jupyter ile uyumludur ve Python, SQL, R ve Scala not defterleri için kodsuz görselleştirme ve veri hazırlığının yanı sıra akıllı kodlama yardımı sunar. Datalore'un Rapor oluşturma aracı, ekiplerin kod ve deneme dolu bir not defterini anlaşılır ve veriye dayalı bir hikâyeye dönüştürmesine olanak sağlar. Ekipler not defterlerini paylaşabilir, gerçek zamanlı olarak birlikte düzenleyebilir ve çalışma alanında projelerini organize edebilir.

Ekibinizde veya veri departmanınızda özel bir Veri Mühendisi rolü var mı?

Tüm ekiplerin ve departmanların neredeyse yarısında özel bir Veri Mühendisi veya Makine Öğrenimi Mühendisi var.

Veri bilimi, makine öğrenimi veya veri mühendisliğini nasıl öğrendiniz?

Veri Bilimci, Veri Mühendisi ve Makine Öğrenimi Mühendisi gibi özel roller, iş piyasasına nispeten yeni eklenen meslekler. Çoğu katılımcı bu rollere bağlantılı alanlardan geçiş yapıyor ve geçiş nedeniyle kendi kendilerine çalışarak veya çevrimiçi kurslarla yeni beceriler edinmek durumunda kalıyor.

Kendiniz de dâhil olmak üzere veri ekibinizin kaç üyesi var?

Veriyle çalışanların %50'sinden fazlası beş veya daha fazla kişiden oluşan ekiplere sahip.

Veri bilimi veya veri analizi için hangi IDE'leri veya düzenleyicileri kullanıyorsunuz?

Not defterlerine çalışma zamanınızın ne kadarını ayırıyorsunuz?

Not defterlerini hangi amaçla kullanıyorsunuz?

Not defterlerinizin sürümlerini tutuyor musunuz?

Hangi versiyonlama araçlarını kullanıyorsunuz?

Veri bilimi profesyonellerinin çoğunluğu not defterlerinin sürümünü oluşturmuyor, önemli bir kısmı (%41) sürüm oluşturuyor ve çoğu sürüm oluşturmak için Git veya GitHub'ı kullanıyor.

Araştırmalarınızın sonuçlarını sunmak için hangi araçları kullanıyorsunuz?

Jupyter not defterlerinin çeşitli uygulamaları veri biliminde oldukça popüler; keşif amaçlı veri analizi, veri denemeleri, veri sorgulama ve model prototipi oluşturma gibi yaygın kullanım durumları vardır. Veri bilimi profesyonellerinin yaklaşık %40'ı iş sonuçlarını sunmak için Jupyter not defterlerini kullanıyor, ancak ilginç bir şekilde çoğu (neredeyse %50'si) Jupyter not defterlerini kullanmak için zamanlarının yalnızca %10–%20'sini harcıyor.

Veri bilimi görevleri için ne tür hesaplama kaynakları kullanıyorsunuz?

Katılımcıların büyük bir kısmı veri bilimi işleri için yerel kaynaklara güveniyor.

Ne tür veri kaynaklarıyla çalışıyorsunuz?

Çoğunluk yerel dosyalar kullanıyor olsa da SQL veri tabanları kullananların oranı geçen yılda yüzde 10 puan büyüdü ve bu artış, veri bilimi için SQL'in önemini vurguluyor.

En çok hangi veri türlerini kullanıyorsunuz?

İşinizde sentetik veri kullanıyor musunuz?

Ankete katılan veri bilimcilerin çoğu, özel olarak toplanan verileri işliyor. En yaygın veri türleri; işlem verileri, zaman serisi verileri, görüntüler ve makine tarafından oluşturulan verilerdir. İlginç bir şekilde, %30'u sentetik verilerle çalışıyor; veriler gerçek dünyadaki olaylarla değil yapay olarak elde ediliyor.

Makine öğrenimi ya da derin öğrenme modelleri eğitiyor musunuz?

Makine öğrenimi veya derin öğrenme modelleri tüm katılımcıların yaklaşık %40 tarafından eğitilir. Ancak, bu rakam veri işlerini birincil aktivitesi olarak görenler arasında %60'ın üzerine çıkar. Bu sektör trendi, tahmine dayalı modellemenin veri işleriyle çalışmanın ana yönlerinden biri olacağına işaret ediyor.

Makine öğrenimi modellerinizi ne kadar sıklıkla yeniden eğitiyor veya güncelliyorsunuz?

Model eğitimine her ay ne kadar süre ayırıyorsunuz?

Veri bilimi profesyonellerinin yarısı makine öğrenimi modellerini ayda en az bir kez yeniden eğitiyor veya güncelliyor, ancak çoğu bu göreve ayda 20 saatten az zaman harcıyor.

Modellerinizi eğitimler için GPU'lar kullanıyor musunuz?

Veri bilimi profesyonellerinin çoğunluğu (%81) model eğitimi için GPU'ları kullanıyor. Grafik işlemcilerin etkili kullanımı eğitimi hızlandırıp model performansını artırabilir. Bu, GPU'ları araştırmacılar ve veri uzmanları için giderek daha çekici bir kaynak hâline getiriyor. Ayrıca bu, makine öğrenimi dünyasındaki teknolojik yeniliklerin önemini ve alaka düzeyini de ön plana çıkarıyor.

Makine öğrenimi görevleri için genellikle ne kadar VRAM'e ihtiyaç duyuyorsunuz?

Daha yüksek işlem gücü, makine öğrenimi görevleri için görünür bir tercih. Veri bilimi profesyonellerinin %80'i şu anda 16 GB veya daha fazla VRAM kullanırken 8 GB kullananların payı geçen yılda yüzde altı puan düştü.

Ne tür metotlar ve algoritmalar kullanıyorsunuz?

Regresyon ve ağaç temelli yöntemler gibi temel makine öğrenimi algoritmaları yaygın bir şekilde kullanılmaya devam ediyor. Bununla birlikte, veri bilimi profesyonellerinin önemli bir kısmı nöral ağlar da kullanıyor. Dönüştürücü mimarilerin artan popülerliği ve kullanıcı dostu olması, katılımcıların %30'unun neden NLP işleri yaptığını açıklayabilir. İlginç bir şekilde, katılımcıların yalnızca %24'ü, işlerinin bir parçası olarak istatiksel testi kullandığını bildirdi. Bu veri, makine ve derin öğrenimin temel veri becerisi olarak klasik istatistiğin yerini aldığına işaret ediyor.

Hangi kurumsal makine öğrenimi çözümlerini kullanıyorsunuz?

Amazon hizmetleri en popüler kurumsal bulut çözümleri olarak öne çıkıyor. Dikkat çekici bir biçimde, geçen yıla kıyasla kurumsal makine öğreniminin benimsenmesinde önemli bir artış oldu (yüzden 10 puandan daha fazla).

Hangi makine öğrenimi çerçevelerini kullanıyorsunuz?

TensorFlow, popülerlik açısından scikit-learn ve PyTorch'un biraz ilerisindedir; Keras ve XGBoost da sağlam benimseme oranları gösteriyor. İlginç bir şekilde, katılımcıların önemli bir kısmı (%19) özel bir çerçeve kullanmadıklarını bildirdi.

Model eğitimi denemelerini takip etmek için hangi araçları kullanıyorsunuz?

TensorBoard, %23 oranla en yaygın kullanılan araç. MLFlow %10 ve WandB %7 oranla onu takip ediyor. Ancak, veri bilimi profesyonellerinin üçte ikisi model eğitimi denemelerinin takibi için özel araçlar kullanmıyor.

Aşağıdakilerden hangisi organizasyonunuzdaki makine öğrenimi kullanımını en iyi şekilde açıklıyor?

Makine öğrenimi ve yapay zekâ, günlük iş hayatımızın vazgeçilmez bileşenleri hâline geldi, bu nedenle katılımcılarımızın yarısından fazlasının kullandıkları yazılıma entegre yapay zeka temelli çeşitli özellikler kullanması şaşırtıcı olmasa gerek.

Hangi kurumsal bulut çözümlerini kullanıyorsunuz?

Aşağıdaki veri temelli aktivitelerden hangileri sizin veya organizasyonunuz için yürütmesi en zor?

Ortalama olarak, ekipleriniz zamanının yüzde kaçını verileri yönetmek, temizlemek veya etiketlemek için harcıyor?

Veri temizleme için hangi araçları kullanıyorsunuz?

Veri kalitesi, veriyle çalışan profesyoneller ve organizasyonlar için genel bir sorun çünkü yaklaşık %50'si zamanlarının %30'unu veya daha fazlasını veri hazırlamaya harcıyor. Bir Anaconda çalışması da veri temizlemenin veri profesyonellerinin iş akışının en zaman alıcı yönü olduğunu doğruluyor. Katılımcılarımızın neredeyse yarısı bu tür görevleri gerçekleştirmek için Entegre Geliştirme Ortamlarını (IDE'ler) tercih ediyor.

Veri Bilimi:

2023

Zaman ayırdığınız için teşekkür ederiz!

Raporumuzu faydalı bulduğunuzu umuyoruz. Bu raporu arkadaşlarınızla ve meslektaşlarınızla paylaşın.

Herhangi bir soru ya da öneriniz varsa lütfen bizimle surveys@jetbrains.com adresinden iletişime geçin.