← Modül 2 Ana Sayfa

2.1. Eksik Değer Yönetimi (Imputation)

2.1. Detay: Eksik Değerlerle Başa Çıkma Stratejileri

Eksik değerler (NaN/Null), modelin öğrenme sürecini durdurur. Bu boşlukları doldurmak (Imputation), veri setindeki bilgi kaybını en aza indirmenin en bilimsel yoludur.

Medyan'ın Dayanıklılığı: Aykırı Değerler Testi (İnteraktif)

Sayısal bir sütundaki boşluğu doldururken (Imputation), aykırı değerler varsa ortalama değeri nasıl manipüle eder? Aşağıdaki örnekte, veri setindeki en büyük fiyatı değiştirerek Medyan ve Ortalama'nın nasıl tepki verdiğini gözlemleyin.

Örnek Veri Seti (5 Ev Fiyatı):

[ 500.000, 600.000, 700.000, 800.000,
]

Sağdaki fiyat, eksik bir değer yerine doldurulan veya veri setindeki aykırı bir değerdir. $850.000\ \text{TL}$ ile $10.000.000\ \text{TL}$ arasında bir değer girin/seçin.

Ortalama (Mean) Sonucu

0 TL

⚠️ Yorum: Aykırı değere karşı çok hassastır. Büyük uç değerler, ortalamayı yukarı çekerek tüm tahmini saptırır.

Medyan (Median) Sonucu

700.000 TL

Yorum: Aykırı değerin büyüklüğünden etkilenmez. Doldurulan değer, verinin çoğunluğuna uygun kalır. Bu yüzden tercih edilir.

Diğer Doldurma (Imputation) ve Silme Stratejileri

Mod (Kategorik İçin)

Metinsel (Örn: 'Semt') sütunlardaki boşluklar, o sütunda en çok tekrar eden değer (Mod) ile doldurulmalıdır. Sayısal hesaplama yapılamaz.

Gözlemi Silme

Eksik veri oranı genel veri setinin %1-2'sinden az ise veya veri setimiz çok büyükse, o satırı tamamen silmek, hızlı ve temiz bir çözümdür.

Tahmine Dayalı Doldurma

En gelişmiş yöntemdir: Eksik değeri, diğer tüm değişkenleri kullanarak farklı bir regresyon modeliyle tahmin edip doldurmaktır. Yüksek doğruluk sağlar.

Eksik Değer Doldurma Laboratuvarı

Küçük bir CSV yapıştır, kolon türlerini seç ve doldurma stratejisini uygula. Önce/sonra tablosunu gör.

Boş bırakılan alanlar eksik (NaN) kabul edilir.

Kolon Türleri

Strateji

Önce

Sonra

Not: Gerçek projede doldurma yalnızca training set üzerinde fit edilip test/validasyona uygulanmalıdır (sızıntı yok).