Pengantar XGBoost (Bagian 1) - Regresi dengan Pohon Unik
Gambaran Umum
- Penyaji: Josh Stormer
- Topik: XGBoost, fokus pada regresi dengan pohon unik
- Prasyarat: Keakraban dengan gradient boosting, regularisasi
- Struktur: Seri tiga bagian (Bagian 1: Regresi dengan pohon unik, Bagian 2: Klasifikasi, Bagian 3: Detail matematis)
Konsep Utama
Langkah Awal dalam Regresi XGBoost
- Prediksi Awal: Default adalah 0.5 (regresi/klasifikasi)
- Residual: Perbedaan antara nilai yang diamati dan nilai yang diprediksi
- Pohon Regresi: Menyesuaikan dengan residu tetapi dengan pohon XGBoost yang unik
Membangun Pohon XGBoost untuk Regresi
- Mulai dengan Satu Daun: Semua residu dalam satu daun
- Hitung Skor Kemiripan: Jumlah residu kuadrat / jumlah residu + lambda
- Lambda: Parameter regularisasi (default λ = 0)
- Contoh skor kemiripan akar awal: 4
- Kriteria Pembagian: Membagi data ke dalam dua kelompok (berdasarkan contoh dosis)
- Hitung skor kemiripan baru untuk setiap daun
- Contoh: Pembagian dosis < 15
- Perhitungan Gain: Menentukan efektivitas pembagian
- Gain = skor kemiripan (Daun Kiri) + skor kemiripan (Daun Kanan) - skor kemiripan akar
- Contoh Nilai Gain:
- Ambang Dosis < 15: Gain = 120.33
- Ambang Dosis < 22.5: Gain = 4
- Ambang Dosis < 30: Gain = 56.33
- Pembagian terbaik: Dosis < 15
- Membatasi Kedalaman Pohon: Contoh menggunakan 2 level tetapi default adalah 6 level
- Pemangkasan Pohon: Menggunakan gamma (parameter kompleksitas pohon)
- Contoh nilai gamma yang dipilih: 130
- Bandingkan gain dengan gamma untuk memutuskan pemangkasan (hapus jika Gain-Gamma < 0)
Efek Parameter Regularisasi (Lambda)
- Lambda memengaruhi skor kemiripan dan nilai gain
- Lambda yang lebih besar menghasilkan skor kemiripan yang lebih kecil dan biasanya lebih banyak pemangkasan
- Perhitungan Nilai Output: jumlah residu / (jumlah residu + lambda)
Membuat Prediksi
- Prediksi baru = Prediksi awal + learning rate (eta) * output pohon
- Iterasi proses: Residual semakin kecil dengan setiap pohon yang dibangun
- Lanjutkan hingga residual sangat kecil atau jumlah pohon maksimum tercapai*
Ringkasan
- Skor Kemiripan & Gain: Digunakan untuk membagi data
- Pemangkasan: Berdasarkan perbandingan gain dan gamma
- Nilai Output: Perhitungan dipengaruhi oleh lambda
- Learning Rate (Eta): Mengukur output dari setiap pohon
Langkah Selanjutnya
- Pratinjau Bagian 2: Gambaran umum XGBoost untuk klasifikasi
Mendukung Seri: Patreon, keanggotaan saluran, merchandise