19.10.2023

4

Beğenme

376

Görüntülenme

Veri Bilimine Giriş - Bias (Yanlılık)

Veri bilimine girişte ilk karşımıza çıkan hatalı sapma bilgisi olarak karşımıza Bias (yanlılık) çıkmaktadır. Hadi gelin Bias neymiş hangi durumlarda ortaya çıkmaktadır ve nasıl önlenebilir inceleyelim.

Öncelikle çözüm ana probleme girmeden önce bazı kavramları açıklamamız gerekmektedir.

Train ve Test veri seti: Veri setinde model için çalışılan kesite Train, modelin nasıl çalıştığını gözlemlemek için ayrılan veriye Test denir

OverfittingAşırı öğrenme, ezberleme. Bir modelde overfitting durumunu train ve test arasındaki doğruluk oranındaki farktan anlayabiliriz. Train veri seti üzerinden eğittiğimiz model veriyi ezberlediği için test veri setinden gelen yeni bir input olduğunda sonucu alakasız verebilir.

Bias: Hata/yanlılık/sapma. Modelleme sonucunda tahmin edilen veriler ile gerçek veriler arasındaki uzaklığı yansıtan değerdir.

Variance (Varyans): Varyans, belirli bir veri noktası için model tahmininin değişkenliği veya verilerin nasıl yayıldığını bize gösteren değerdir.

Bias değeri düşük ancak varyansı yüksek ise overfitting’den bahsedebiliriz. Burada model veri deseni içerisindeki tüm gürültüleri de öğrenerek gözlemlere karşılık gelen değerleri (target) ezberler. Train veri seti içerisinde temiz bir data olmadığına delalet eder. Train ve test veri seti arasındaki doğruluk oranlarındaki farklılıklar overfitting’e işaret etmektedir.

Overfitting Önleme Yöntemleri

  1. Cross Validation: Train veri setinden farklı kesitler alarak modelin eğitilmesi.
  2. Veri Ekleme: Model veri setinden ezberlemeye yönelmeye başladığında daha fazla gözlem (row/satır) eklenebilir.
  3. Feature Selection: Değişkenlerin sayısı azaltılarak veri setindeki gürültü ve bias azaltılabilir. Feature Selection (Değişken seçimi) konusunda oldukça fazla yöntem bulunmaktadır.
  4. Budama ya da Durdurma: İterasyon olarak çalışan modelin veri üzerinde çok fazla eğitilmesi engellenebilir. Örneğin karar ağacı için çok fazla dallanmadan budama işlemi gerçekleştirilerek overfitting engellenebilir.
  5. Regularization (Düzenleştirme): Bu yöntem, modelinizi yapay olarak daha basit olmaya zorlayan çok çeşitli teknikleri ifade eder.
  6. Ensembling: Birden fazla ayrı modelden tahminleri birleştiren bir yöntemdir.
Veri Bilimine Giriş
Veri Bilimi 101

Yorumlar

Kullanıcı yorumlarını görüntüleyebilmek için kayıt olmalısınız!

Zeynep İrem Acar

Konum

Sakarya, TR

© 2021 Patika Dev

facebook
twitter
instagram
youtube
linkedin

Disclaimer: The information /programs / events provided on https://patika.dev and https://risein.com are strictly for upskilling and networking purposes related to the technical infrastructure of blockchain platforms. We do not provide financial or investment advice and do not make any representations regarding the value, profitability, or future price of any blockchain or cryptocurrency. Users are encouraged to conduct their own research and consult with licensed financial professionals before engaging in any investment activities. https://patika.dev and https://risein.com disclaim any responsibility for financial decisions made by users based on information provided here.