K-Nearest Neighbors Classifier (KNN)
Pengantar Machine Learning
- Definisi: Machine learning adalah area dalam ilmu komputer yang mengajarkan komputer untuk belajar dari data tanpa diprogram secara eksplisit.
- Tujuan: Memungkinkan sistem komputer untuk mendeteksi pola dan hubungan tersembunyi dalam data serta membuat prediksi atau estimasi berdasarkan input data.
Kategori Machine Learning
- Supervised Learning: Data memiliki label.
- Unsupervised Learning: Data tidak memiliki label.
- Semi-supervised Learning: Menggabungkan data berlabel dan tidak berlabel.
- Active Learning: Pengguna aktif memberi label data untuk meningkatkan model.
K-Nearest Neighbors Classifier
- Penggunaan: Efisien untuk masalah klasifikasi.
- Sejarah: Diperkenalkan oleh Ficks (1951) dan disusun ulang oleh Cafford & Hart (1967).
- Karakteristik: Non-parametric, sederhana, dan termasuk 10 metode efektif dalam data mining.
Algoritma KNN
- Prediksi Kelas: Menentukan kelas baru dengan menghitung jarak terpendek antara sampel baru dengan sampel tetangga terdekat.
- Popularitas: Digunakan dalam klasifikasi, data mining, regresi, dan pengenalan pola.
Penerapan KNN
- Penentuan K: Tentukan jumlah tetangga terdekat, misalnya K=3.
- Penghitungan Jarak Euclidean:
- Rumus: ( D(X, Y) = \sqrt{\sum_{i=1}^d (X_i - Y_i)^2} )
- Contoh Kasus:
- Dataset terdiri dari dua kelas: Ideal dan Overweight berdasarkan tinggi dan berat badan.
- Data baru: Tinggi 163, berat 69.
- Proses:
- Buat grafik visualisasi.
- Hitung jarak Euclidean untuk dataset.
- Urutkan dan temukan majority class.
Implementasi dalam Perangkat Lunak
-
Excel:
- Hitung jarak Euclidean dan ranking data.
- Menentukan kelas mayoritas dari data baru.
-
MATLAB:
- Program untuk menghitung dan mengklasifikasikan data baru.
Kesimpulan
- KNN sederhana namun powerful dalam mengklasifikasikan data.
Referensi
- Paper "Top 10 Algorithm in Data Mining".
Terima kasih atas perhatiannya. Assalamualaikum warahmatullahi wabarakatuh.