← Modül 1 Ana Sayfa

1.3. İstatistiksel Keşif ve Kalite

1.3. Detay: İlk İstatistiksel Keşif ve Tutarlılık Kontrolü

Veri setinin genel yapısını anlamak için ilk istatistiksel özetlere bakılır. Bu, ilerideki Veri Temizleme (Modül 2) adımı için yol haritası çıkarır.

Temel İstatistiklere İlk Bakış

Sayısal sütunların özetine bakarak, verinin merkezi eğilimini ve yayılımını görürüz:

  • Ortalama, Medyan, Standart Sapma gibi temel istatistiklere bakarak verinin genel merkezi eğilimini anlarız.
  • Medyan ve Ortalama arasındaki büyük farklar, veri setinde aykırı değerlerin (outlier) varlığına işaret eder.
  • Minimum değerlerin sıfırın altında veya imkansız büyük olması, veri girişi hatalarını gösterir.

Korelasyon Analizi: İlişkinin Gücü (Görsel)

İki bağımsız değişkenin (X) bağımlı değişkeni (Y) ne kadar güçlü ve ne yönde etkilediğini gösteren ölçümdür. Değer -1 ile +1 arasında değişir.

-1.0 (Güçlü Negatif)
0.0 (İlişki Yok)
+1.0 (Güçlü Pozitif)

Korelasyon Değeri (Metrekare & Fiyat): +0.75

Yorum: Genellikle %70 üzerinde bir korelasyon, değişkenler arasında güçlü bir ilişki olduğunu gösterir. Bu durumda, Metrekare arttıkça Fiyat da güçlü bir şekilde artmaktadır.

İnteraktif Özet & Aykırı Değer Sezgisi

Aşağıya sayı listelerini (virgülle) gir: örn. 120, 150, 130, 200

Ortalama: · Medyan: · Std:
IQR (Q3−Q1): · Aykırı eşik:
Korelasyon (Pearson ≈):
Not: Aykırı eşik = [Q1−1.5·IQR, Q3+1.5·IQR]. Histogram, fiyat hataları yerine değer dağılımını gösterir.

Veri Kalitesi İkazları

Bu aşamada gözlemlenen, ancak Modül 2'de ele alınacak kritik sorunlar:

  • Eksik Değerler (NaN): Veri setinde boş hücrelerin olması. (Adım 2'de temizlenecek)
  • Aykırı Değerler (Outliers): Dağılımın çok dışındaki uç noktalar. (Adım 2'de ele alınacak)
  • Hatalı Tipler: Sayı olması gereken bir sütunun (Örn: Fiyat) metin ('TL') içermesi.