Algoritma DRF - Video 1: Decision Tree

Jul 15, 2024

Algoritma DRF (Double Random Forest) - Video 1: Decision Tree

Pendahuluan

  • Algoritma DRF, singkatan dari Double Random Forest.
  • Pembahasan dibagi menjadi 4 video:
    1. Decision Tree (DT)
    2. Parameter dan penggunaannya untuk regresi atau klasifikasi
    3. Random Forest (RF)
    4. Double Random Forest (DRF)

Cara Kerja Decision Tree (DT)

Univariate Decision Tree

  • Contoh data: variabel gaji untuk memprediksi apakah bisa mendapat pinjaman (yes/no).
  • Visualisasi manual: Menentukan batas gaji untuk menentukan keputusan (misal: gaji < 3 juta, tolak; > 15 juta, tolak).
  • Kesulitan manual: Jika variabel dan data banyak, sulit dilakukan secara manual.
  • Model DT: Membuat keputusan menggunakan model berbasis pohon.
  • Menggunakan satu fitur (misal: gaji) untuk membuat decision tree.
  • Decision: Memisah data menjadi dua keputusan (misal: titik tengah gaji antara dua observasi).
  • Machine Learning: Menggunakan mesin untuk memilih best decision berdasarkan criterion (misal: gini impurity atau entropy).
  • Evaluasi:
    • Menghitung impurity untuk tiap keputusan.
    • Memilih decision dengan impurity terendah.
  • Decision Tree pada Data:
    • Fitur gaji: Decision terbaik diambil dari impurity terendah (misal: gaji < 12,5 juta).
    • Recursive splitting: Pohon diperbarui terus sampai tidak ada impurity baru.
    • Hasil akhir: Data dipilah menjadi node yang bersih untuk prediksi.
  • Predicting data baru:
    • Menggunakan model untuk memprediksi berdasarkan node yang dihasilkan (misal: gaji 9 juta diterima).
  • Handling noisy data:
    • DT mampu menerima sedikit noise melalui voting di setiap node akhir.

Multivariate Decision Tree

  • Multiple features: Menambahkan lebih banyak fitur (aset, pinjaman, periode, kredit skor).
  • Evaluasi beragam fitur: Mesin cobain semua fitur dan memilih best decision dari tiap fitur.
  • Recursive splitting with multiple features:
    • Mesin memilih fitur dengan impurity terendah di setiap split.
    • Proses mirip dengan univariate tetapi mempertimbangkan banyak fitur.

Kesimpulan

  • DT mampu mengotomasi keputusan berdasarkan impurity criteria.
  • Mampu bekerja dengan baik pada data univariate maupun multivariate.
  • Proses recursive iterative untuk mendapatkan best decision pada tiap node.

Next Video

  • Pembahasan parameter dan penggunaannya untuk regresi atau klasifikasi.