Pemodelan Prediktif Menggunakan Machine Learning dan Deep Learning

Jul 23, 2024

Pemodelan Prediktif Menggunakan Machine Learning dan Deep Learning

Pengantar

  • Pemateri: Pak Sandi Irfansah (Data Scientist dari Tech)
  • Fokus pada pemodelan prediktif menggunakan Machine Learning (ML) dan Deep Learning (DL)
  • Profesi: Pengajar di Hactive8, mentor di program Kampus Merdeka, instruktur corporate training

Pemodelan Data

  • Proses mengolah dan mengkombinasikan data untuk analisis
  • Pentingnya normalisasi dan denormalisasi data
  • Data scientists dan data analysts menggunakan data terstruktur yang disiapkan oleh data engineers

Predictive Modeling

  • Langkah-langkah:
    • Define objektif dan indikator
    • Cek ketersediaan data
    • Data preprocessing: membersihkan data dari outliers, anomalies, duplicate data, missing values
    • Data analisis untuk mendapatkan insight
    • Memilih model: klasifikasi atau regresi
    • Latih model, validasi, dan mungkin deploy (misal buat dashboard)

Tipe Data

  • Terstruktur: data yang terorganisir seperti data tabular (baris dan kolom), tipe data terdefinisi (integer, string, dll.), mudah dianalisis
  • Tidak Terstruktur: data seperti email, log, PDF, video, audio, image
  • Penyimpanan: Data Warehouse untuk data terstruktur, Data Lake untuk data tidak terstruktur

Artificial Intelligence, Machine Learning, dan Deep Learning

  • AI: Komputer meniru kecerdasan manusia untuk menyelesaikan tugas tertentu
  • ML: Mesin belajar untuk menemukan pola dan membuat keputusan secara otomatis
  • Deep Learning: Subset dari ML yang menggunakan neural networks untuk memproses data kompleks

Tipe Pemodelan ML

  • Supervised Learning: Data dengan label/targer, dibagi menjadi klasifikasi dan regresi
  • Unsupervised Learning: Data tanpa label, fokus pada clustering (pengelompokan data berdasarkan kemiripan)
  • Reinforcement Learning: Pembelajaran berbasis feedback untuk tugas-tugas spesifik

Evaluasi Model ML

  • Underfitting: Model kurang kompleks, performa buruk
  • Overfitting: Model terlalu kompleks, performa baik pada data training tapi buruk pada data testing
  • Good Fit: Model balanced, performa baik di training dan testing

Teknik Peningkatan Akurasi Model

  • Data Quality: Pastikan kualitas dan jumlah data yang cukup
  • Feature Engineering: Tambahkan fitur yang relevan
  • Model Tuning: Hyperparameter tuning, penggunaan regularisasi, cross-validation
  • Model Complexity: Tingkatkan kompleksitas model jika diperlukan

Implementasi Project Model ML

  • Proses: Tentukan background, objective, data source, preprocessing data, build model (misal menggunakan CNN pada TensorFlow), evaluasi model, deploy model

Studi Kasus: Peningkatan Akurasi

  • Data Imbalance: Menambah data pada kelas minoritas atau mengurangi data pada kelas mayoritas
  • Augmentasi Data: Menambah variasi data melalui augmentasi (rotasi gambar, resize, dll.)
  • Pre-trained Models: Menggunakan model yang sudah dilatih sebelumnya (misal: menggunakan VGGNet)

Pertanyaan dari Peserta

  • Tips memilih algoritma yang tepat?
    • Analisis pattern data, gunakan pemodelan yang sesuai (linear vs non-linear)
    • Perbandingan antara beberapa model, evaluasi dari sisi akurasi, memori, dan waktu training

Dokumentasi

  • Pastikan untuk mengikuti evaluasi dan dokumentasi sesi melalui link yang disediakan

Simpulan

  • Memahami dan memilih metode pemodelan yang tepat sangat penting dalam praktek ML dan DL
  • Data quality dan preprocessing sangat mempengaruhi hasil akhir model
  • Terus lakukan evaluasi dan tuning untuk mencapai performa model yang optimal