19.10.2023

4

Like

318

Views

Veri Bilimine Giriş - Bias (Yanlılık)

Veri bilimine girişte ilk karşımıza çıkan hatalı sapma bilgisi olarak karşımıza Bias (yanlılık) çıkmaktadır. Hadi gelin Bias neymiş hangi durumlarda ortaya çıkmaktadır ve nasıl önlenebilir inceleyelim.

Öncelikle çözüm ana probleme girmeden önce bazı kavramları açıklamamız gerekmektedir.

Train ve Test veri seti: Veri setinde model için çalışılan kesite Train, modelin nasıl çalıştığını gözlemlemek için ayrılan veriye Test denir

OverfittingAşırı öğrenme, ezberleme. Bir modelde overfitting durumunu train ve test arasındaki doğruluk oranındaki farktan anlayabiliriz. Train veri seti üzerinden eğittiğimiz model veriyi ezberlediği için test veri setinden gelen yeni bir input olduğunda sonucu alakasız verebilir.

Bias: Hata/yanlılık/sapma. Modelleme sonucunda tahmin edilen veriler ile gerçek veriler arasındaki uzaklığı yansıtan değerdir.

Variance (Varyans): Varyans, belirli bir veri noktası için model tahmininin değişkenliği veya verilerin nasıl yayıldığını bize gösteren değerdir.

Bias değeri düşük ancak varyansı yüksek ise overfitting’den bahsedebiliriz. Burada model veri deseni içerisindeki tüm gürültüleri de öğrenerek gözlemlere karşılık gelen değerleri (target) ezberler. Train veri seti içerisinde temiz bir data olmadığına delalet eder. Train ve test veri seti arasındaki doğruluk oranlarındaki farklılıklar overfitting’e işaret etmektedir.

Overfitting Önleme Yöntemleri

  1. Cross Validation: Train veri setinden farklı kesitler alarak modelin eğitilmesi.
  2. Veri Ekleme: Model veri setinden ezberlemeye yönelmeye başladığında daha fazla gözlem (row/satır) eklenebilir.
  3. Feature Selection: Değişkenlerin sayısı azaltılarak veri setindeki gürültü ve bias azaltılabilir. Feature Selection (Değişken seçimi) konusunda oldukça fazla yöntem bulunmaktadır.
  4. Budama ya da Durdurma: İterasyon olarak çalışan modelin veri üzerinde çok fazla eğitilmesi engellenebilir. Örneğin karar ağacı için çok fazla dallanmadan budama işlemi gerçekleştirilerek overfitting engellenebilir.
  5. Regularization (Düzenleştirme): Bu yöntem, modelinizi yapay olarak daha basit olmaya zorlayan çok çeşitli teknikleri ifade eder.
  6. Ensembling: Birden fazla ayrı modelden tahminleri birleştiren bir yöntemdir.
Veri Bilimine Giriş
Veri Bilimi 101

Comments

You need to log in to be able to comment!

Zeynep İrem Acar

Location

Sakarya, TR

© 2021 Patika Dev

facebook
twitter
instagram
youtube
linkedin