Modül 3: Özellik Mühendisliği

Model Hazırlığı

Modül 3: Özellik Mühendisliği

Ham veriyi modelin anlayabileceği forma dönüştürme sanatı! Bu modülde, kategorik verileri sayısallaştıracak, ölçeklendirme yapacak, gereksiz özellikleri eleyecek ve dağılımları iyileştireceksiniz.

🎯 Modül Hedefleri

0/4 tamamlandı

Kategorik Kodlama

One-Hot Encoding

Ölçeklendirme

Standardizasyon

Özellik Seçimi

VIF & Korelasyon

Dönüşümler

Log, Sqrt, Box-Cox

⚡ Hızlı Gösteri: Özellik Dönüşümleri

🎯 One-Hot Encoding

Kategorik verileri sayısala çevirir. "Şehir: [İstanbul, Ankara]" → [1,0] ve [0,1] sütunlarına dönüşür.

📈 Standardizasyon

Farklı ölçekteki değişkenleri aynı ölçeğe getirir. Ortalama=0, Standart Sapma=1 yapar.

💡 Log Dönüşümü

Sağa çarpık dağılımları düzeltir
Büyük değerleri küçültür
Model performansını artırır

📚 Modül İçeriği

Temel

3.1. Kategorik Kodlama

One-Hot Encoding ve Dummy Variable Trap

Keşfet →

Kritik

3.2. Ölçeklendirme

Standardizasyon vs Min-Max Scaling

Keşfet →

İleri

3.3. Özellik Seçimi

VIF ve Korelasyon Analizi

Keşfet →

Uzman

3.4. Özellik Dönüşümleri

Log, Sqrt ve Box-Cox Dönüşümleri

Keşfet →

🔄 Özellik Mühendisliği Senaryoları

Kategorik → Sayısal

"Şehir: [İstanbul, Ankara, İzmir]" → One-Hot Encoding ile 3 sütun

Ölçek Farkı

Yaş: [0-100] ve Gelir: [0-1.000.000] → Standardizasyon ile aynı ölçek

Dağılım İyileştirme

Gelir dağılımı sağa çarpık → Log dönüşümü ile normalize

🚀 Özellik Mühendisliği Kodu

from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
import pandas as pd

# Kategorik ve sayısal sütunları ayır
categorical_cols = ['sehir', 'cinsiyet']
numerical_cols = ['yas', 'gelir']

# Preprocessor oluştur
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_cols),
        ('cat', OneHotEncoder(drop='first'), categorical_cols)
    ]
)

# Fit ve transform
X_processed = preprocessor.fit_transform(X_train)

🎯 Mini Görev

Görev: Doğru Tekniği Seç

Aşağıdaki senaryolar için en uygun özellik mühendisliği tekniğini seçin:

"Eğitim Durumu" kategorik değişkeni → One-Hot Encoding Yaş ve Gelir farklı ölçeklerde → Standardizasyon Ev fiyatları sağa çarpık → Log dönüşümü

Modül 2: Veri Temizleme Başla: 3.1 Kategorik Kodlama