19.10.2023
4
Like
318
Views
Veri bilimine girişte ilk karşımıza çıkan hatalı sapma bilgisi olarak karşımıza Bias (yanlılık) çıkmaktadır. Hadi gelin Bias neymiş hangi durumlarda ortaya çıkmaktadır ve nasıl önlenebilir inceleyelim.
Öncelikle çözüm ana probleme girmeden önce bazı kavramları açıklamamız gerekmektedir.
Train ve Test veri seti: Veri setinde model için çalışılan kesite Train, modelin nasıl çalıştığını gözlemlemek için ayrılan veriye Test denir
Overfitting: Aşırı öğrenme, ezberleme. Bir modelde overfitting durumunu train ve test arasındaki doğruluk oranındaki farktan anlayabiliriz. Train veri seti üzerinden eğittiğimiz model veriyi ezberlediği için test veri setinden gelen yeni bir input olduğunda sonucu alakasız verebilir.
Bias: Hata/yanlılık/sapma. Modelleme sonucunda tahmin edilen veriler ile gerçek veriler arasındaki uzaklığı yansıtan değerdir.
Variance (Varyans): Varyans, belirli bir veri noktası için model tahmininin değişkenliği veya verilerin nasıl yayıldığını bize gösteren değerdir.
Bias değeri düşük ancak varyansı yüksek ise overfitting’den bahsedebiliriz. Burada model veri deseni içerisindeki tüm gürültüleri de öğrenerek gözlemlere karşılık gelen değerleri (target) ezberler. Train veri seti içerisinde temiz bir data olmadığına delalet eder. Train ve test veri seti arasındaki doğruluk oranlarındaki farklılıklar overfitting’e işaret etmektedir.
You need to log in to be able to comment!