1.2. Detay: Bağımlı ve Bağımsız Değişkenleri Ayırma
Regresyon modelinin temeli, Tahmin Edilen ve Etkileyen değişkenler arasındaki ayrım ve bunların veri tipinin doğru tanımlanmasıdır.
Bağımlı Değişken (Y) - Sonuç
- Tanım: Modelin tahmin etmeye çalıştığı ana değişkendir.
- Kural: Regresyon analizi için Y değişkeni **sürekli (sayısal)** olmalıdır (Örn: $1.25, 45000$).
- Örnek: Bir evin **Fiyatı**, Bir ürünün **Satış Miktarı**.
Bağımsız Değişkenler (Xn) - Etkenler
- Tanım: Bağımlı değişkeni etkilediğine inanılan tüm faktörlerdir.
- Kural: X değişkenleri sayısal veya kategorik olabilir.
- Örnek: Evin **Metrekaresi**, **Reklam Bütçesi**, **Bina Yaşı**.
Değişken Tiplerinin Önemi
Sayısal (Continuous)
Sürekli değişen sayılardır (Örn: $1.25, 4500$). İleride **Standardizasyon** işlemine tabi tutulacaktır.
Kategorik (Categorical)
Metinsel veya sınıflı değişkenler (Semt, Ürün Kategorisi, Cinsiyet). İleride One-Hot Encoding ile sayısallaştırılacaktır.
Pekiştirme Sorusu: Hangi Değişken Nedir?
Aşağıdaki değişkenlerin rolünü ve tipini doğru tahmin edin.
Sürükle-Bırak Etiketi: Y vs X
Kutucukları uygun alana sürükle: Y (Bağımlı) veya X (Bağımsız).
fiyat
metrekare
oda_sayisi
bina_yasi
semt
Y (Bağımlı)
X (Bağımsız)
Tip Dönüşümü İpuçları
categorytipini kullan: düşük kardinaliteli metinlerde bellek kazanırsın.astype('float32')veastype('int8')ile sayısal tipleri küçült.- Model öncesi tipleri doğrula:
df.dtypes.
# Pandas tip dönüştürme
df['semt'] = df['semt'].astype('category')
df['metrekare'] = df['metrekare'].astype('float32')
df['oda_sayisi'] = df['oda_sayisi'].astype('int8')