Veri Bilimine Giriş - Bias (Yanlılık)

Veri bilimine girişte ilk karşımıza çıkan hatalı sapma bilgisi olarak karşımıza Bias (yanlılık) çıkmaktadır. Hadi gelin Bias neymiş hangi durumlarda ortaya çıkmaktadır ve nasıl önlenebilir inceleyelim.

Öncelikle çözüm ana probleme girmeden önce bazı kavramları açıklamamız gerekmektedir.

Train ve Test veri seti: Veri setinde model için çalışılan kesite Train, modelin nasıl çalıştığını gözlemlemek için ayrılan veriye Test denir

Overfitting: Aşırı öğrenme, ezberleme. Bir modelde overfitting durumunu train ve test arasındaki doğruluk oranındaki farktan anlayabiliriz. Train veri seti üzerinden eğittiğimiz model veriyi ezberlediği için test veri setinden gelen yeni bir input olduğunda sonucu alakasız verebilir.

Bias: Hata/yanlılık/sapma. Modelleme sonucunda tahmin edilen veriler ile gerçek veriler arasındaki uzaklığı yansıtan değerdir.

Variance (Varyans): Varyans, belirli bir veri noktası için model tahmininin değişkenliği veya verilerin nasıl yayıldığını bize gösteren değerdir.

Bias değeri düşük ancak varyansı yüksek ise overfitting’den bahsedebiliriz. Burada model veri deseni içerisindeki tüm gürültüleri de öğrenerek gözlemlere karşılık gelen değerleri (target) ezberler. Train veri seti içerisinde temiz bir data olmadığına delalet eder. Train ve test veri seti arasındaki doğruluk oranlarındaki farklılıklar overfitting’e işaret etmektedir.

Overfitting Önleme Yöntemleri

Cross Validation: Train veri setinden farklı kesitler alarak modelin eğitilmesi.
Veri Ekleme: Model veri setinden ezberlemeye yönelmeye başladığında daha fazla gözlem (row/satır) eklenebilir.
Feature Selection: Değişkenlerin sayısı azaltılarak veri setindeki gürültü ve bias azaltılabilir. Feature Selection (Değişken seçimi) konusunda oldukça fazla yöntem bulunmaktadır.
Budama ya da Durdurma: İterasyon olarak çalışan modelin veri üzerinde çok fazla eğitilmesi engellenebilir. Örneğin karar ağacı için çok fazla dallanmadan budama işlemi gerçekleştirilerek overfitting engellenebilir.
Regularization (Düzenleştirme): Bu yöntem, modelinizi yapay olarak daha basit olmaya zorlayan çok çeşitli teknikleri ifade eder.
Ensembling: Birden fazla ayrı modelden tahminleri birleştiren bir yöntemdir.

Veri Bilimine Giriş

Veri Bilimi 101

Yorumlar

Kullanıcı yorumlarını görüntüleyebilmek için kayıt olmalısınız!

Zeynep İrem Acar

Konum

Sakarya, TR