📊

Pengantar Regresi dengan XGBoost

Jul 22, 2024

Pengantar XGBoost (Bagian 1) - Regresi dengan Pohon Unik

Gambaran Umum

  • Penyaji: Josh Stormer
  • Topik: XGBoost, fokus pada regresi dengan pohon unik
  • Prasyarat: Keakraban dengan gradient boosting, regularisasi
  • Struktur: Seri tiga bagian (Bagian 1: Regresi dengan pohon unik, Bagian 2: Klasifikasi, Bagian 3: Detail matematis)

Konsep Utama

Langkah Awal dalam Regresi XGBoost

  • Prediksi Awal: Default adalah 0.5 (regresi/klasifikasi)
  • Residual: Perbedaan antara nilai yang diamati dan nilai yang diprediksi
  • Pohon Regresi: Menyesuaikan dengan residu tetapi dengan pohon XGBoost yang unik

Membangun Pohon XGBoost untuk Regresi

  1. Mulai dengan Satu Daun: Semua residu dalam satu daun
  2. Hitung Skor Kemiripan: Jumlah residu kuadrat / jumlah residu + lambda
    • Lambda: Parameter regularisasi (default λ = 0)
    • Contoh skor kemiripan akar awal: 4
  3. Kriteria Pembagian: Membagi data ke dalam dua kelompok (berdasarkan contoh dosis)
    • Hitung skor kemiripan baru untuk setiap daun
    • Contoh: Pembagian dosis < 15
  4. Perhitungan Gain: Menentukan efektivitas pembagian
    • Gain = skor kemiripan (Daun Kiri) + skor kemiripan (Daun Kanan) - skor kemiripan akar
    • Contoh Nilai Gain:
      • Ambang Dosis < 15: Gain = 120.33
      • Ambang Dosis < 22.5: Gain = 4
      • Ambang Dosis < 30: Gain = 56.33
    • Pembagian terbaik: Dosis < 15
  5. Membatasi Kedalaman Pohon: Contoh menggunakan 2 level tetapi default adalah 6 level
  6. Pemangkasan Pohon: Menggunakan gamma (parameter kompleksitas pohon)
    • Contoh nilai gamma yang dipilih: 130
    • Bandingkan gain dengan gamma untuk memutuskan pemangkasan (hapus jika Gain-Gamma < 0)

Efek Parameter Regularisasi (Lambda)

  • Lambda memengaruhi skor kemiripan dan nilai gain
  • Lambda yang lebih besar menghasilkan skor kemiripan yang lebih kecil dan biasanya lebih banyak pemangkasan
  • Perhitungan Nilai Output: jumlah residu / (jumlah residu + lambda)

Membuat Prediksi

  • Prediksi baru = Prediksi awal + learning rate (eta) * output pohon
    • Default eta = 0.3
  • Iterasi proses: Residual semakin kecil dengan setiap pohon yang dibangun
  • Lanjutkan hingga residual sangat kecil atau jumlah pohon maksimum tercapai*

Ringkasan

  • Skor Kemiripan & Gain: Digunakan untuk membagi data
  • Pemangkasan: Berdasarkan perbandingan gain dan gamma
  • Nilai Output: Perhitungan dipengaruhi oleh lambda
  • Learning Rate (Eta): Mengukur output dari setiap pohon

Langkah Selanjutnya

  • Pratinjau Bagian 2: Gambaran umum XGBoost untuk klasifikasi

Mendukung Seri: Patreon, keanggotaan saluran, merchandise