Transcript for:
Algoritma DRF - Video 1: Decision Tree

Oke selamat datang kembali di tanya Jacob kali ini ada yang bertanya tentang algoritma drf ya atau singkatan dari double random Polres untuk jawab pertanyaan ini saya perlu bahas berbagai hal dulu ya jadi saya akan pecah menjadi 4 video terpisah video yang pertama kita akan fokus dulu bahas di season 3 video keduanya kita bahas parameternya serta Bagaimana kalau dipakai untuk regresi atau klasifikasi video ketiga kita akan fokus ke random forest dan yang terakhir barulah kita bisa jawab dan kita masuk ke double random Polres Oke jadi kita mulai dulu di video pertama yang ini kita bahas di sisi yang [Musik] bagaimana cara kerjanya di season 3 univariat ya satu variabel jadi di sini contohnya kita ada data ya satu variabel gaji kita memprediksi Apakah kita mau memberikan pinjaman atau enggak ya save atau tidak low-nya di sini Gajinya ada yang 500.000 600.000 dan seterusnya kalau kita plot ya datanya Oh ini ada gaji yang rendah mendengar dan yang tinggi di kasus ini mungkin program pinjamannya itu Untuk gaji yang menengah aja ya yang tinggi akan kita tolak karena ada program lain mungkin Oke jadi datanya seperti ini kalau misalkan kita secara manual atau visual ya manusia udah bisa Tentukan ya kalau gajinya kurang dari ya sekitar ini kan ya ini kan terima dan ditolak ya gajinya kurang dari 3 jutaan ya kita tolak gajinya misalkan lebih dari berapa belas juta ini ya kita tolak Tuhan itu kan manual dan itupun sesuatu yang bisa kita plot ya univariat kalau misalkan nanti variabelnya banyak atau datanya banyak datanya lebih noising akan sulit kalau kita mau manual jadi kita akan coba serahkan ini ke model yang namanya decision 3 yuk kita lihat cara kerjanya oke di sini ya sudah ada pohonnya dan ada datanya juga jadi ini datanya maka pertama-tama di season 3 Ya kita harus memilih decision apa fitur yang mau kita pakai sebagai decision karena ini univariat ya fiturnya udah jelas gaji ya nggak ada pilihan lain gitu jadi kita langsung saja Gaji kita Letakkan di sini cuman yang menjadi pertanyaan ini mau disiangka berapa nih gaji kurang dari berapa itu oke pertama-tama kita harus tahu dulu apa itu decision gitu jadi di Season itu sebenarnya ya cuman angka yang kita peroleh Diantara Dua data oke kan kita mau memisah gitu ya kita membuat keputusan berarti ya decision itu Misalkan kita ada ini ya kita ada ini kan ada banyak Data yang kita ambil 2 data nih yang berdekatan yang ini sama yang ini maka tengah-tengahnya itu ya sebuah decision kan Kita pisah gitu ya bisa satu kiri satu kanan lebih kecil dan lebih besar apakah yang di tengah antara dua data ini juga adalah sebuah decision yang ini contohnya misalkan ini Anggaplah 7 setengah yang pas ya di sisirnya Adalah gaji kurang dari 7 setengah Yes ordo Oke begitu pula Begitu banyak di Season lainnya di setiap 2 data yang kita punya ya di sini ada decision di sini juga berupa decision di sini juga sebuah decision rata-rata dari dua data oke Sekarang yang menjadi pertanyaan ya kalau ada begitu banyak di sisi yang bisa kita pilih mana yang akan kita ambil mana yang akan mesin pilih gitu ya karena kita mau otomasi ya Kita kasih ke mesin jadi supaya mesin bisa memilih maka langkah yang kita lakukan itu kita harus kasih sebuah kriteria ya sebuah cara agar mesin bisa mengambil base decision atau keputusan terbaik tentunya kalau secara visual kita nanti udah tahu Ya mestinya mesin milih yang daerah sini atau daerah sini kita belum tahu mana yang lebih baik gitu ya Tapi pada akhirnya Harapan Kita mesin akan mengambil di sisi yang ini dan ambil bcison yang ini supaya terpisah ya kalau ada terpisah nanti modelnya bisa prediksi dengan baik klasifikasi dengan baik Oke Bagaimana cara menilainya tadi kita sebut berarti kita harus kasih sebuah penilaian agar mesin bisa mengambil keputusan terbaik itulah yang disebut sebagai dcccicion criteria kriteria oke yang umum dipakai ya di decision 3 itu ada gini-gini purity atau ada entropi Oke jadi bisa dipakai yang mana aja dan kalau kita coba ya kita serahkan ke mesin ini eh Mesin coba tolong hitung gini imperity nya untuk masing-masing decision tadi kan kita ada banyak di sininya Diantara Dua data ini dua data ini dua data ini satu decision 2 data ini satu dicicion nah di tiap decisionnya kita hitung gini impurity tadi pakai persamaan tadi ya Dan ini saya udah Coba hitungkan ya untuk sampel data set yang kita pelajari Ini hasilnya yang garis biru ini Oke dan otomatis mesin menemukan jadinya ya kalau kita ambil di season-nya di sini itu kurang baik kita bisa lihat impurity nya ini secara penilaian itu agak tinggi gitu ya 0,8 lebih jadi kita jangan ambil division di sini jangan potong datanya itu di sini begitu pula jangan di sini jangan di sini maka di sisi yang terbaiknya di mana di sisi yang terbaiknya ternyata ada di yang paling rendah ini dia Oke jadi kalau kita serahkan ke mesin secara otomatis dia cobain satu-satu dia akan mengambil keputusan bahwa di sisi yang sebaik terbaik bisa diambil saat itu adalah gaji kurang dari 12 setengah juta Oke ini ya 12,5 otomatis pohonnya pun mulai dipopulasi ya Jadi yang pertama di sisi yang pertama kita adalah salary kurang dari 12,5 juta otomatis datanya pun terpilah ya terbilang yang dibawah 12,5 juta jadinya masuk ke sini ke bagian kiri jadi kita ke sini ini masuk ke sini sedangkan yang lebih dari 12,5 juta masuk ke sini ya lalu tinggal ulangi saja itu kan kelebihan dari mesin ya mesin bisa melakukan hal yang sama berulang-ulang dalam waktu yang sangat singkat gitu nah sekarang Anggaplah data kita tadi itu Cuman segini gitu ya jadi kita misalkan Anggaplah kita balik ke data kita ini Eh sorry ya data kita yang ini Anggaplah data yang ini nggak pernah ada gitu tapi datanya Cuman segini ya kita bisa melakukan langkah yang sama ya kita suruh Mesin coba buat decision decision decision decision Pilihlah best decision yang giniin purity-nya terendah Mungkin gitu kan ya ya mesin dengan mudah bisa menemukan itu jadi ini mesin akan menemukan hasilnya ternyata adalah tiga setengah gitu ya loh yang ini kenapa nggak ada di Season lagi kebetulan ya kebetulan di data ini sih udah nggak bisa ada di season baru coba teman-teman lihat tadi yang di atas 12 setengah juta semuanya ini kan udah yang semua prediksinya sama ya Nol semua gitu Jadi kalau kita hitung impuritynya itu udah pasti mau dan kalau semua decisionnya sama nggak ada best decision kan atau ya nggak ada di sisi lain lagi yang bisa diambil pakai otomatis yang kanan ini udah nggak bisa bercabang nggak ada decision tapi Yang kiri masih ada decisionnya dan ternyata itu adalah kurang dari 3,5 yang kurang akan masuk sini yang lebih dari tiga setengah masuk ke sini dan akhirnya data set kita pun terpilah-pilah kalau belum cukup ini bisa ambil di Season lagi ambil di Season lagi dan seterusnya mesin tinggal melakukan itu berulang-ulang tapi di kasus ini udah stop Ya karena kebetulan imperitynya udah mau semua gitu lalu cara mengambil prediksinya itu seperti apa voting aja jadi sisa data set yang tersisa di Note yang ini ini Kebetulan 0 semua berarti postingannya ya ini kita tolak Ya apapun yang masuk ke sini kita tolak ini Kebetulan terima semua ya kita save ini nol semua kita tolak Oke jadi di sisir Tri yang finalnya ya yang udah jadi bentuknya seperti ini kalau misalkan kita ada data baru kan kita buat model itu supaya bisa prediksi data baru ya Nah ada data baru ini seseorang dengan gajinya 9 juta Dia meminta ya mengambil Program pinjaman ini kita serahkan ke mesin Apakah dia akan terima atau enggak ya kita udah ada modelnya yang jika 9 juta oh 9 juta itu masuknya ke kanan atau kiri kiri 9 juta maksudnya ke kanan ke kiri kanan maka otomatis di season 3 akan prediksi gajian 9 juta akan kita terima oke ini berlaku juga untuk data yang tidak terlalu clean ya ini mungkin contoh data sintetisnya agak terlalu bersih misalkan datanya Agak jelek sekalipun Nggak masalah gitu ya karena pada akhirnya di season 3 itu akan voting di kasus ini berarti yang ini pada saat di sini ada satu yang nilainya tolak akan ya Jadi ada 4 yang Terima Satu yang tolak ya votingnya tetap sama ya votingnya tetap terima Oke jadi tetap di season 3 ini dapat menerima sedikit noise ya untuk melakukan prediksi yang lebih umum oke Bagaimana kalau misalkan kita fiturnya udah lebih dari satu ini kan cuman unit ya Nah kita akan coba bahas ya di sisi sentry yang sekarang kita ada fitur lebih dari satu ya bagaimana nih Kita coba lihat dulu datanya ada seperti tadi sentence mau diterima atau enggak pinjamannya fitur yang kita gunakan untuk mengambil keputusan ada aset orangnya gajinya pinjamannya berapa besar periode pinjaman sama kredit skor jadi ada 5 fitur ya 5 fitur Bagaimana nih cara mesin ya di season 3 mengambil keputusan sebenarnya sama saja ya Jadi yang dilakukan Ya kalau tadi misalkan cuma satu fitur diambil kayak gini kan ya Oh tadi itu sellery ya Ini gaji lalu kan dicobain ya tiap antar dua data itu satu decision hitung gininya berapaannya gitu atau imperitynya atau kriteria pilihan lainnya dari sana kita akan memperoleh apa best decision tapi best decision cuman di satu fitur kan ya dicobain semua kita serahkan ke mesin Gimana kalau bukan gaji kita ambil aset dicobain semua di sisi sini seperti apa bagaimana dengan lom Bagaimana dengan itu kita serahkan ke mesin dan dari sama antar base decision ya jadi di sini ada pestisionnya bestice lagi mana yang secara kriterianya impurity nya itu paling rendah otomatis kan nanti paling pasti ada satu yang paling rendah di sanalah yang menjadi best decisionnya di multivariat ya contohnya ternyata patokannya ada di loom yang impuritynya paling rendah misalkan lone kita nggak tahu ya contoh aja kurang dari decision 1 itu nilainya berapa Tergantung data ya jadinya mirip kayak tadi kan ya datanya akan terpisah datanya akan terpisah Anggaplah seperti ini Lalu lakukan hal yang sama lagi di sini kita harus ambil decision juga kan Ya tapi tetep loh pilihan decisionnya itu tetap ada 5 fitur ya itu ya pilihannya top 5 fitur kita akan serahkan nih serahkan ke mesin cobain lagi semua di Season yang ada tapi dengan data ini doang ya Coba di seasonnya untuk aset salary lontem credit score mana yang empurity-nya paling rendah Oh Ternyata di kasus ini ini yang memberikan input paling rendah ya periodenya dan akhirnya datanya pun terpisah seperti ini jadi ini bagaimana dengan yang sisa 5 data Ini sama juga gitu ya mesin akan melakukan rekursif dicobain lagi semua fitur ingat bukan berarti fitur yang udah dipakai nggak bisa dipakai lagi ya Ini dikembaliin mesin akan cobain semua Oh ternyata tetap butuhnya itu pakai lom gitu ya maka datanya misalkan akan terpisah lagi Nah misalkan dua data masuk ke sini Jika data masuk ke sini kurang dari di season 3 dan seterusnya gitu ya Dan Seterusnya Jadi itulah yang dilakukan oleh decision 3 walaupun fiturnya multivariat sama saja gitu ya bedanya sekarang lebih banyak yang bisa jadi decision tapi tetap kita akan ambil best decision ini bahkan cabangnya bisa diterusin lagi gitu ya seperti itu cara kerja next kita akan bahas parameter-parameter dari semoga yang saya sharing hari ini bisa bermanfaat Salam hangat dari Jacob untuk Indonesia [Musik]