2.1. Detay: Eksik Değerlerle Başa Çıkma Stratejileri
Eksik değerler (NaN/Null), modelin öğrenme sürecini durdurur. Bu boşlukları doldurmak (Imputation), veri setindeki bilgi kaybını en aza indirmenin en bilimsel yoludur.
Medyan'ın Dayanıklılığı: Aykırı Değerler Testi (İnteraktif)
Sayısal bir sütundaki boşluğu doldururken (Imputation), aykırı değerler varsa ortalama değeri nasıl manipüle eder? Aşağıdaki örnekte, veri setindeki en büyük fiyatı değiştirerek Medyan ve Ortalama'nın nasıl tepki verdiğini gözlemleyin.
Örnek Veri Seti (5 Ev Fiyatı):
Sağdaki fiyat, eksik bir değer yerine doldurulan veya veri setindeki aykırı bir değerdir. $850.000\ \text{TL}$ ile $10.000.000\ \text{TL}$ arasında bir değer girin/seçin.
Ortalama (Mean) Sonucu
0 TL
⚠️ Yorum: Aykırı değere karşı çok hassastır. Büyük uç değerler, ortalamayı yukarı çekerek tüm tahmini saptırır.
Medyan (Median) Sonucu
700.000 TL
✅ Yorum: Aykırı değerin büyüklüğünden etkilenmez. Doldurulan değer, verinin çoğunluğuna uygun kalır. Bu yüzden tercih edilir.
Diğer Doldurma (Imputation) ve Silme Stratejileri
Mod (Kategorik İçin)
Metinsel (Örn: 'Semt') sütunlardaki boşluklar, o sütunda en çok tekrar eden değer (Mod) ile doldurulmalıdır. Sayısal hesaplama yapılamaz.
Gözlemi Silme
Eksik veri oranı genel veri setinin %1-2'sinden az ise veya veri setimiz çok büyükse, o satırı tamamen silmek, hızlı ve temiz bir çözümdür.
Tahmine Dayalı Doldurma
En gelişmiş yöntemdir: Eksik değeri, diğer tüm değişkenleri kullanarak farklı bir regresyon modeliyle tahmin edip doldurmaktır. Yüksek doğruluk sağlar.
Eksik Değer Doldurma Laboratuvarı
Küçük bir CSV yapıştır, kolon türlerini seç ve doldurma stratejisini uygula. Önce/sonra tablosunu gör.