← Modül 2 Ana Sayfa

2.2. Aykırı Değer Yönetimi (Outliers)

2.2. Detay: Aykırı Değerleri Tespiti ve Etkisini Azaltma

Aykırı değerler, Regresyon Analizi'nin doğrusal yapısını bozarak tüm tahminleri hatalı hale getirir. Bu yüzden tespit edilmeleri ve etkilerinin nötralize edilmesi hayati önem taşır.

Tespit: Kutu Grafiği (Box Plot) İle Anormallikleri Görmek

Kutu Grafiği, verinin dağılımını 5 ana sayı (minimum, Q1, medyan, Q3, maksimum) ile özetler. Aykırı değerler, bu sınırların dışında kalan noktalardır.

MIN
Q1
MEDYAN
Q3
MAX
OUTLIER

Aykırı Değer Tanımı (IQR Kuralı):

Kutu Grafiği'ndeki aykırı noktalar, genellikle Çeyrekler Arası Aralık (IQR) adı verilen bir kurala göre belirlenir. Bu kural, dağılımın merkezi yapısının ne kadar dışına çıkıldığını matematiksel olarak ölçer.

IQR = Q₃ - Q₁

Aykırı Kabul Sınırları:

Değer > Q₃ + 1.5 × IQR VEYA Değer < Q₁ - 1.5 × IQR

Çözüm 1: Logaritmik Dönüşümün Etkisi (İnteraktif)

Logaritma, milyonluk değerler arasındaki uçurumları matematiksel olarak nasıl sıkıştırır? Kaydırma çubuğunu hareket ettirerek, normal fark ile logaritmik fark arasındaki dramatik küçülmeyi gözlemleyin. Bu dönüşüm, modelinizin hatalarını daha adil dağıtmasını sağlar.

10.000.000 TL

Dönüşüm Öncesi (Gerçek Fark)

Standart Ev Fiyatı (Sabit): 100.000 TL

Aykırı Fiyat (Dinamik): 10.000.000 TL

FARK: 9.900.000 TL

Dönüşüm Sonrası (Logaritma Log10)

Log(100.000): 5

Log(Aykırı Fiyat): 7.00

YENİ FARK: Sadece 2.00 birim

Çözüm 2: Kırpma (Capping / Winsorizing) - Veri Kaybını Önleyen Sınırlandırma

Bu yöntem, aykırı gözlemleri silmekten veya değerlerini tamamen değiştirmekten kaçınır. Bunun yerine, aşırı uç değerleri, dağılımın kabul edilebilir üst sınırına (tavanına) eşitler. Bu işleme Winsorizing de denir.

Kırpma İşleminin Görsel Şeması: Gerçek Dağılımın Sınırlandırılması

%99 Sınırı (900K TL)

Winsorizing Avantajları

  • Bilgi Korunumu: Gözlemleri tamamen silmediği için bilgi kaybı en aza iner.
  • Modelin Stabilizasyonu: Aşırı uç değerlerin regresyon çizgisini kendi yönüne çekmesi engellenir.
  • Kolay Yorumlama: Logaritmaya göre daha az transformatif olduğu için modelin sonuçları daha sezgisel yorumlanır.

Uygulama Adımları (Maksimum Sınır)

  • 1. Sınırı Belirle: P99 gibi istatistiksel bir tavan belirlenir. Örn: 900.000 TL.
  • 2. Uç Değerleri Tespit Et: Sınırın üzerindeki tüm noktalar belirlenir. (Örn: 1.200.000 TL ve 5.000.000 TL).
  • 3. Değerleri Eşitle: Tespit edilen tüm uç değerler, belirlenen sınıra eşitlenir (İkisi de 900.000 TL olur).

Aykırı Değer & Log-Dönüşüm Laboratuvarı

Fiyat gibi çarpık dağılımlarda log(d) dönüşümü aralığı sıkıştırır ve modelin aykırılardan etkilenmesini azaltır. IQR yöntemiyle aykırı eşiği hesapla.

Q1: · Q3: · IQR:
Aykırı Eşik:
Basitleştirilmiş kutu grafiği: orta çizgi medyan, kutu Q1–Q3, kollar eşiklere kadar; noktalar aykırılar.