Suara saya masih ini gak? Bermasalah gak? Sekarang sudah aman sih mbak.
Baik, terima kasih pak. Halo, baiklah saya mulai. Halo semuanya, selamat datang di acara webinar BIS Mikro Mikroskill. Pada webinar kali ini, BIS Mikro ST Mikroskill berkolaborasi dengan BISA.ai dengan membawakan tema yaitu The Mining and Post-Processing Process of Data Mining. Sebelumnya, saya mengucapkan terima kasih kepada pihak BISA.ai.
yang telah memberi fasilitas untuk acara webinar kali ini. Saya mengucapkan terima kasih kepada Bapak Rusnanda Farhan SSI, selaku pembicara kita kali ini, yang telah meluangkan waktunya untuk berbagi ilmu di acara webinar kita. Saya ucapkan terima kasih kepada Bapak Dr. Pahala Sirait STMKOM, selaku Ketua STM Mikroskio.
Saya mengucapkan terima kasih kepada Bapak Sunira Winardi, SKOM MT. Selaku Kutub Program Studi S1 Teknik Informatika STM Mikroskil. Saya ucapkan terima kasih kepada Bunga Lanceri Lestari SKFMKOM. Selaku Sekretaris Program Studi S1 Teknik Informatika STM Mikroskil.
Dan sekaligus Pembi Nabis Mikro. Saya ucapkan terima kasih kepada para dosen dan staff pegawai mikroskil yang telah hadir pada acara webinar kita. Serta tak lupa pula, saya ucapkan terima kasih kepada teman-teman. yang telah menyempatkan diri untuk hadir di acara webinar BIS Mikro kali ini.
Perkenalkan, nama saya Widya Monika Pakparan, saya selaku moderator dalam acara webinar ini, dan saya merupakan mahasiswi teknik informatika SDM Mikroskil. Nah, dalam webinar kali ini, kita kedatangan pembicara, yaitu Bapak Rusmanda Farhan SSI. Beliau merupakan researcher di BISA AI. Nah, nantinya Bapak Rusmanda Farhan SSI. akan menjelaskan tentang proses of data mining.
Dan ini merupakan webinar lanjutan, di mana webinar sebelumnya dengan pembicara Bapak Frans Mikael Sinaga, SKM. Sebelum kita memulai acara, saya akan membacakan susunan acara pada hari ini. Yang pertama yaitu kata sambutan dari Ketua STNiCroscale.
Yang kedua penyampaian materi oleh pembicara. Yang ketiga sesi tanya-jawab. Nantinya bisa bertanya melalui media chat dengan menggunakan yang setegi.
Yang keempat kata penutup atau motivasi yang akan disampaikan oleh pembicara. Yang kelima acara terakhir yaitu sesi foto bersama. Nantinya teman-teman saya minta untuk mengaktifkan kameranya.
Oke, baiklah tanpa berlama-lama langsung saja kita ke acara pertama yaitu kata sambutan dari Ketua STB Mikroskil yaitu Bapak Dr. Pahala Sirait STM Kom. Kepada Bapak Dr. Pahala Sirait STM Kom, waktu dan tempat kami persilahkan. Maaf Pak, sebelumnya suaranya belum ada. Halo? Apa suara saya sudah kedengaran?
Baik Pak, sudah dengar Pak. Baik, terima kasih Widya. Selamat siang, salam sejahtera buat kita semua. Yang terhormat jajaran pimpinan STMIC Mikroskills. wakasatu dan wakatiga yang terhormat Bapak Rusnanda Parhan yang merupakan dan tim yang merupakan perwakilan daripada bisa AI yang sekaligus menjadi pembicara kita pada siang hari ini yang terhormat ketua dan sekretaris program student informatika STMI mikroskip yang terhormat rekan-rekan dosen, jajaran BITS Mikro dan kemahasiswaan yang memfasilitasi pelaksanaan webinar kita pada siang hari ini dan yang tentunya yang saya banggakan peserta webinar yang saya lihat memang belum semuanya masuk sesuai dengan yang sudah terdaftar.
Baik, jadi puji syukur dan... kita panjatkan kehadirat Tuhan yang Maha Esa dimana atas berkat dan ridhonya kita bisa bertemu kembali di acara webinar kita dengan topik The Mining and Post-Processing Processes of Data Mining sebagaimana tadi disampaikan oleh Widya ini merupakan yang ketiga dimana yang kedua kita menyampaikan mengenai data mining juga topiknya tetapi lebih fokus ke arah pre-processing. Ya, pre-processing dan ini kelanjutan daripada itu berkaitan dengan post-processing.
Berbicara data mining tentunya bagaimana kita bisa menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-milah data tentunya. Tentunya kumpulan data yang berukuran besar dengan memanfaatkan teknologi. Memanfaatkan teknologi baik dalam teknologi pengenalan pola, teknik-teknik matematika, dan statistik.
Tentunya kemampuan data mining di dalam mencari informasi yang dibutuhkan tentunya ditujukan untuk berkaitan dengan Prediksi, prediksi tren dan barangkali di lingkup bisnis tentunya berkaitan dengan sifat-sifat bisnis, kemudian bagaimana kita dengan data mining. bisa mengotomatisasi pencarian informasi untuk memprediksi, di mana tentunya berdasarkan kumpulan data yang sudah disediakan sebelumnya. Tentunya juga dengan data mining kita bisa menemukan pola-pola yang tidak diketahui sebelumnya, di mana pada data mining ini tentu...
bisa kita melakukan langkah-langkah awal seperti yang sudah dilakukan sebelumnya, preprocessing di dalam mempersiapkan data, kemudian nanti post-processingnya, yaitu berkaitan dengan bagaimana mengidentifikasi pola-pola yang sebelumnya tersembunyi di dalam tumpukan data tersebut. Tentunya juga dengan data mining bisa kita gunakan dalam mendukung sistem cerdas di dalam membuat suatu keputusan-keputusan kritis yang tentunya dapat digunakan di dalam mendukung penerapan strategi. Baik, jadi sebagaimana saya bilang tadi bahwa data mining ini berkaitan dengan beberapa fungsi dasar tentunya yang barangkali nanti akan dijabarkan.
dan oleh Bapak Arus Nanda Farhan, tentunya kita perlu saya sampaikan di sini bagi adik-adik mahasiswa yang tentunya bagi yang sudah mempelajari artificial intelligence, ini mengingatkan kita kembali dan yang sudah mempelajari sistem berbasis pengetahuan. tentunya tidak lepas daripada data mining, apa yang sudah kita pelajari selama ini. Jadi baru yang, kalau yang sekarang ini mau memasuki semester 4, mungkin semester depan kita akan ketemu sistem berbasis pengetahuan yang tentunya nanti akan bisa kembali ketemu dengan topik-topik yang akan dibahas di sini. Ya tentunya sebagaimana saya sebutkan tadi bahwa post processing ini tentu bisa digunakan di dalam fungsi prediksi tadi, dalam fungsi deskripsi, klasifikasi, tentu analisis asosiasi dan termasuk mengenai estimasi dan clustering.
Ini merupakan proses-proses fundamental yang banyak digunakan. di dalam mendukung sistem-sistem cerdas yang mulai tren dan banyak digunakan di waktu-waktu belakangan ini. Dan inilah saya harapkan kepada kita semua, topik ini sangat menarik tentunya, dan tentu diharapkan kepada para peserta nanti bisa menangkap pesan utama daripada materi kita pada siang hari ini sehingga. Ketika nanti kita sudah bagi yang mau belajar sistem berbasis pengetahuan atau yang sudah mempelajari sistem berbasis pengetahuan untuk mata kuliah di teknik informatika kita tentu bisa menambah wawasan bagi Anda yang ingin khususnya yang sedang menyusun tugas akhir tentunya.
Saya mengucapkan terima kasih yang sebesar-besarnya kepada Bapak Rusnanda Parhan dan tim. Mohon maaf kalau kebetulan mungkin peserta kita saya lihat tadi tidak begitu banyak, karena memang STM Mikroskills sedang melaksanakan ujian akhir semester, dan mudah-mudahan nanti Bits Mikro bersama-sama dengan Prodi bisa lagi mengoptimalkan sehingga peserta kita. untuk acara webinar seperti ini bisa lebih banyak lagi. Jadi sekali lagi terima kasih kepada kita semua, selamat mengikuti webinar, dan kepada moderator, terima kasih dan saya kembalikan. Sekian, Widya.
Terima kasih kepada Bapak Dr. Pahala Sirai STMKOM atas kata sebutannya. Baiklah, masuk kita ke acara kedua, yaitu penyampaian materi oleh Bapak Rusnanda Farhan SSI. Kepada Bapak Rusnanda Farhan SSI, waktu dan tempat dipersilahkan Pak. Oke, baik.
Terima kasih sebelumnya yang saya hormati Bapak Dr. Pahalas Dirait STM.com kepada jajaran dan staff dari STM IKA Mikroskills dan yang saya hormati juga dosen-dosen sekalian dan juga teman-teman peserta yang berbahagia. Terima kasih sudah bergabung pada webinar siang hari ini. Perkenalkan kembali saya Rusnanda Korhan dari tim BISA-AI yang kali ini akan mencoba berdiskusi tentang mining process and post processing dari data mining. Nah, di sini mungkin sambil saya share screen ya. Oke, sepertinya sedang loading ya.
Oke, baik. Kayaknya sih sudah terlihat. Oke, ini mining and processing dari data mining.
Tapi mungkin Adam review sedikit bagaimana data mining ini bisa terkenal ya. Oke, coba kita bahas. Oke, dari awal mula data mining, seperti yang kita tahu, dimulai... era berkembangnya teknologi dan ilmu pengetahuan sampai dengan generate atau produksi data yang sangat besar, yang sampai sekarang dikenal dengan era big data. Lonjakan volume data ini tentunya bisa mempengaruhi suatu company, suatu instansi jika digunakan dengan sebaik mungkin.
bahkan mungkin dalam instansi pendidikan itu juga bisa digunakan. Dari tumpukan data ini yang tidak terasa kita buat atau kita generate sehari-harinya kita produksi bisa dimanfaatkan oleh banyak pihak. Nah inilah yang sekarang sedang trend dalam dunia teknologi di mana banyak perusahaan yang memanfaatkan data kita, data...
bisa dibilang behavior juga ya, perilaku dan behavior kita, entah itu dari kesukaan kita, sehari-harinya aktivitas kita, secara psikologi kita itu emosinya seperti apa terhadap suatu isu mungkin dan lain sebagainya, itu yang bisa dimanfaatkan oleh orang banyak. Nah, pemanfaatan ini tentunya dibutuhkan suatu teknik, metode, ataupun algoritma atau pola tertentu ya, sehingga ditemukanlah suatu pattern yang biasanya mungkin misalkan kalau saya dalam bertransaksi atau belanja patternnya seperti apa. Nah, dari hal tersebutlah muncul informasi secara explicit ya, yang tidak terlihat kalau kita melihat data tersebut secara langsung. harus digali lebih dalam.
Nah proses menggali lebih dalam inilah yang terkait dengan data ya, terkait dengan data proses menggali informasi dari data itu yang sekarang terkenal dengan nama data mining. Nah jadi trigger awalnya dari sana ketika kita punya data, kita punya kebutuhan, lalu data ini yang bisa membantu kita untuk memenuhi kebutuhan tersebut. Apa sih data mining secara definisinya bahwa data mining itu adalah studi untuk collecting atau mengambil data, cleaning, processing, analyzing, and gaining useful insight from data. Jadi bisa dibilang juga bahwa data mining itu merupakan serangkaian proses mulai dari bagaimana datanya itu kita peroleh sampai dengan mendapatkan useful insight di sini dibilangnya. Kita bisa mendapatkan suatu informasi mendalam.
Jadi insight itu kan informasi mendalam yang mungkin secara eksplisit yang tidak bisa kita lihat secara langsung. Jadi harus kita gali dulu lebih dalam untuk mendapatkan si insight itu, informasi tersebut. yang tentunya berguna bagi tujuan kita.
Dari data mining ini, kenapa bisa sampai terkenal itu, atau mungkin kebutuhannya terus meningkat? Di mana di sini data mining berkaitan erat dengan explosive growth of data, di mana data di sini terus berkembang secara masif, bisa dibilang. Dari terabyte, petabyte, dan lain sebagainya.
Di sini juga mungkin teman-teman yang kemarin sudah ikut tentang preprocessing, dijelaskan juga bahwa kalau data dengan ukuran yang besar, tentunya tidak bisa langsung kita ambil karena membutuhkan resource ataupun kemampuan yang besar untuk memproses seluruh data tersebut. Nah, dalam preprocessing tentunya ketika kita memiliki keterbatasan dalam resource, dalam perangkat, tentunya kita harus memaksimalkan algoritma atau metode sehingga mengefisien ses tersebut. Nah, itu biasanya di dalam preprocessing.
Nah, selanjutnya di sini kenapa data mining juga sangat dibutuhkan? Karena... Sumber-sumber data sekarang yang sekiranya bisa memproduksi data dalam skala besar, sumber data mayor itu membutuhkan data mining, di mana di sini kita lihat sumber data mayor yang sekiranya berpengaruh ya terhadap bisnis ataupun perekonomian, itu kita bisa lihat dari segi e-commerce. transaksi bank dan lain sebagainya, lalu ada retail atau stock, lalu ada juga dari scientist, dari science, ada bioinformatik dan lain sebagainya, ada juga dari society ataupun dari kita sendiri, mulai dari berita, dari jejaring sosial, dari digital camera, youtube dan lain sebagainya.
Nah inilah yang merupakan bagian-bagian penting kenapa data mining itu sangat diperlukan. Nah ini kita coba lanjut. Nah selanjutnya kenapa data mining ya masih terkait dengan data mining bahwa di sini ada sedikit kutipan dari Jonah Esbid bahwa kita itu sekarang tenggelam di dalam informasi tapi kita haus akan pengetahuan.
Nah ini maknanya apa? Bahwa tidak terasa bahwa informasi atau data ya dalam hal ini itu banyak sekali di sekitar kita, tapi kita haus akan ilmu pengetahuan, haus akan pengetahuan ya di sini. Artinya kita tetap kekurangan dalam segi informasi, pengetahuan akan informasi tersebut.
Karena apa? Karena tidak maksimal atau tidak optimalnya kita dalam memproses atau memining data yang sebenarnya kita. Harapannya dengan semakin berkembangnya ilmu pengetahuan, Proses data mining bisa semakin optimal sehingga insight atau informasi yang didapatkan bisa lebih optimal juga.
Di sini ada kutipan lain bahwa ini dari pepatah lama di Inggris ya. Bahwa dia bilang necessity is the mother of invention. Bahwa kebutuhan di sini adalah induk dari sebuah penemuan. Nah jadi semua...
Mungkin kebanyakan ilmu pengetahuan yang ada sekarang itu berdasarkan suatu kebutuhan. Terbukti di mana setiap ilmu pengetahuan dapat diaplikasikan atau memiliki kontribusi entah itu dalam ilmu pengetahuan itu sendiri ataupun dalam penerapannya dalam kehidupan. Nah, secara proses kita tahu bahwa Secara fundamental ada tiga, mulai dari datanya di input itu ada preprocessing, mungkin yang teman-teman sudah saksikan webinarnya sebelumnya. Lalu ada proses data miningnya dan post processingnya, yang mana di sini proses penggalian datanya itu terdapat pada proses yang tengah.
Pada proses miningnya ini dan post processing ini. Bagaimana kita mengukur atau melihat pattern, mengevaluasi ataupun menseleksi ataupun menginterpretasikan sampai mungkin bisa untuk visualisasinya, itu ada di post-processing. Jadi pada blok-blok ini, sorry, pada bagian-bagian ini kita lihat bahwa kalau preprocessing itu bagaimana kita mengintegrasikan data, mengolah dan bisa dibilang menyiapkan datanya sampai dengan kita lihat bahwa data ini sudah bisa kita mining, kita proses untuk tahap selanjutnya.
Nah kalau di proses mining ini kita bermain dengan berbagai macam metode dan algoritma sesuai dengan tujuannya. Di sini bisa kita lihat kalau data mining itu ada pattern discovery, mungkin lebih umumnya terkenal dengan asosiasi pattern mining kalau tidak salah. Lalu ada juga klasifikasi, ada clustering, ada outlier analysis.
Kalau kita masih diskusi secara gambarannya, mungkin kalau nanti praktikal kan tidak, secara praktikal kan sudah banyak ya, kita bisa cari dimanapun. Nah kalau pattern mining ini atau asosiasi pattern mining, itu kita, mungkin nanti ada contohnya, kita lebih melihat ke arah dia patternnya itu seperti apa, polanya seperti apa, sehingga di sini mungkin banyaknya. digunakan dalam market basket analisis. Kalau klasifikasi ini lebih ke arah prediksi, di mana prediksi ini kita bisa melihat suatu data itu akan bisa kita tebak atau kita predik bahwa dia masuk ke suatu kelas apa yang sudah ditentukannya tentunya. Lalu kalau clustering itu lebih melihat ke arah homogenitas, ke arah...
bagaimana suatu data ini saling berdekatan yang artinya dia akan menjadi suatu kelompok-kelompok tertentu berdasarkan kemiripan-kemiripannya. Nah ada hal lain di mana di sini ada outlier analysis atau kita menganalisis, menganalisa pencilan. Pencilan dalam arti di sini adalah suatu data yang sekiranya timpang jauh atau berbeda jauh dari data yang lainnya.
Nah kita analisa apakah ini suatu data yang bisa kita gunakan secara baik gitu ya atau ini data yang buruk yang harus kita buang atau kita lakukan pendekatan-pendekatan lainnya. Nah itu dalam outlier analisis. Ya mungkin nanti bisa kita bahas juga ya penerapannya itu seperti apa.
Nah selanjutnya di sini dalam proses post-processing ini Itu lebih ke arah apa yang sudah kita dapat dari mining tadi, kita evaluasi. Nah, di sini tentunya tidak evaluasi saja ya, tentu saja ada seleksi, interpretasi, ada visualisasi juga. Nah, kurang lebih kayak gini.
Mengevaluasi itu lebih ke arah prediktifnya ya. kita evaluasi apakah sudah sesuai, apakah sudah tepat dalam hal prediksi kita. Nah itu dari pattern evaluation.
Kalau dari selection ini mungkin lebih ke arah, jadi kalau mungkin teman-teman tahu, kalau ini saya berbicara tentang machine learningnya ya, kalau secara machine learningnya sekarang, itu teman-teman mungkin ada yang namanya fitur selection ya, kalau tidak salah. Nah itu, oh sorry bukan fitur selection, fitur... fitur important, dimana kita menseleksi fitur-fitur yang sekiranya berpengaruh besar terhadap model, yang mana yang berpengaruh besar, yang mana yang tidak atau kurang berpengaruh. Nah, itu mungkin dari pattern selection-nya. Nah, dari pattern interpretation, ini mungkin lebih karena interpretasi dari polanya.
Mungkin lebih kenanya itu bisa di asosiasi pattern analysis ataupun di clustering, atau di outlier analysis itu lebih ke arah interpretasinya juga. Lebih kena. Kenapa?
Karena contohnya gini, misalkan di clustering, kalau secara data miningnya, kita hanya mengelompokkan data-data yang kita punya. Selanjutnya apa? Kita nggak tahu.
Kita hanya menjalankan algoritma. Selanjutnya yang untuk menginterpretasikan hasil tersebut adalah post-processing, di mana di sini kita manfaatkan pattern interpretation, di mana kalau clustering, kluster-kluster yang sudah terbentuk kita interpretasikan. Sebenarnya kluster ini adalah kluster apa gitu. Jadi dia berkumpul dalam suatu kluster karena kemiripannya itu berdasarkan kemiripan apa. Misalkan contohnya dalam proses mahasiswa deh katakan gitu ya.
Kita clustering berdasarkan data mahasiswa. Bisa saja nanti terkumpul data di mana kluster pertama itu adalah kluster atau kumpulan mahasiswa on time. Di mana tidak pernah telat misalkan.
Lalu mahasiswa kedua adalah mahasiswa berprestasi, di mana nilainya selalu 90 ke atas kalau UAS atau UTS. Lalu mungkin ada lagi kumpulan ketiga adalah kumpulan mahasiswa yang unggul dalam suatu mata kuliah tertentu. Misalkan kayak gitu ya. Nah ini merupakan bagian dari clustering, di mana tadinya kita hanya punya kumpulan-kumpulan data, lalu kita tahu nama-namanya dari mana, nah itu interpretasinya.
Sebuah post-processing yang harus kita lakukan untuk kita bisa mengambil insight ya, kan intinya kita dalam proses data mining ini menemukan informasi atau insight dari data yang kita punya. Nah post-processing ini penting, kenapa? Karena tanpa post-processing kita hanya... Mendapatkan data-data saja gitu tanpa tahu interpretasinya seperti apa.
Nah selanjutnya mungkin bisa teman-teman visualisasikan. Mungkin ini terkait dengan misalkan, ya bisa ya dalam proses data mining yang ke arah deskriptif. Misalkan visualisasinya hanya sekedar mendeskripsikan dari data kita.
Misalkan rata-rata IPK mahasiswa. Mungkin rata-rata jam. belajar efektif dalam satu periode akademis dan lain sebagainya. Nah itu bisa dari visualisasi.
Ataupun hasil visualisasi dari prediksi atau dari clustering, kan itu juga bisa divisualisasikan. Atau dari outlier analysis, kita memvisualisasikan data poin mana saja yang sekiranya merupakan outlier analysis. Atau sekiranya outlier gitu ya maksudnya.
Mana yang merupakan non-outlier, yang mana yang merupakan outlier. Nah itu kan bisa melalui pattern visualization. Nah setelah post processing ini diharapkan kita sudah memiliki insight yang useful tadi. Sehingga di sini tidak kalah pentingnya dengan bagaimana algoritma secanggih apapun algoritma yang kita gunakan dalam proses mining.
Tapi kalau kita tidak bisa menginterpretasikannya, tidak bisa mengevaluasinya, sama aja akan sia-sia, kita tidak akan mendapatkan insight yang optimal di sana. Coba kita lanjut dulu, nah di sini multidisiplin ilmu yang sekiranya bisa mempengaruhi data sains, itu ada banyak ya, mulai dari machine learning, pattern recognition, statistik yang juga dipakai, visualisasi, application, algoritmnya, database-nya juga, high performance computing-nya juga. Kenapa? Karena... Data mining itu memiliki banyak dependensi atau kebutuhannya, mulai dari keterbatasan dia dengan data yang cukup besar, makanya dia butuh high performance computing, established technology, di mana kita membutuhkan wadah untuk menyimpan datanya, kita membutuhkan algoritmanya untuk processingnya, dan kita membutuhkan hal-hal lain yang misalkan kayak machine learning itu untuk prediksinya.
pattern recognition-nya lebih ke arah pattern analysis-nya, statistiknya tentunya untuk kita bagaimana mengetahui suatu perhitungan dalam algoritma machine learning misalnya. Dan di sini butuh juga visualisasi untuk lebih memvisualkan, lebih bisa menyampaikan hasil yang kita dapat. Jadi gini, dalam konsep data visualisasi, mungkin teman-teman sudah pernah dengar ya bahwa data lebih bisa disampaikan melalui visual daripada, dalam hal ini grafik ya, daripada hanya sekedar angka-angka gitu.
Atau mungkin teman-teman juga pernah dengar bahwa tidak semua orang bisa membaca angka, tapi akan lebih mudah untuk orang melihat grafik ataupun visualisasi jenis lainnya. dimana mungkin disini kalau angka hanya bisa dimengerti oleh kita sebagai orang data. atau mungkin orang statistik saja, atau mungkin orang matematik saja.
Bagaimana dengan orang-orang yang di luar bidang tersebut? Nah, visualisasi bisa cukup menjawab atau memberikan solusi untuk menyampaikan hasil data mining kita kepada orang lain ya, di luar dari statistik dan lain sebagainya. Nah, dari proses data mining dan kita sudah tahu multidisiplin ilmu yang sekiranya, penting, nah disini kita mulai masuk ke proses miningnya.
Disini ada major building blocknya. Disini hal fundamental yang biasa dilakukan dalam proses data mining itu kurang lebih ada 3 atau 4, saya lupa. 4 ya kayaknya. Yang pertama ada association pattern mining.
Nah disini frequent pattern or frequent item set. Dalam hal ini mungkin bisa dibilang kumpulan-kumpulan item yang frequent gitu ya. Dimana di sini lebih banyak digunakan dalam market basket analysis. Di sini kita ingin melihat kalau kita punya transaksi kumpulan-kumpulan item yang dibelanjakan. Misalkan gitu ya.
Karena ini relate banget sama market basket analysis. Kalau kita punya kumpulan transaksi. dari katakan di sini kumpulan item ya, dari banyak transaksi, itu kira-kira kita analisa bagaimana baiknya kita ingin menempatkan barang dalam suatu supermarket atau minimarket gitu. Jadi misalkan di sini contohnya, kalau banyak transaksi antara roti, lalu margarin, dan susu, Itu berarti ketiga pattern, kita kan berarti nemu patternnya di sini ya. Nah di sini kita anggap bahwa kalau kita menempatkan produk roti, itu akan bersebelahan dengan produk margarin dan susu.
Atau mungkin contoh lain kalau kita menempatkan susu balita, produk susu balita pasti bersebelahan dengan diapers atau pampers gitu ya, atau popok. Kenapa? Karena ternyata banyak konsumen yang membeli susu bayi, dia juga membeli popok bayi gitu misalkan. Dan lain sebagainya.
Ini didapat dari analisis pola yang kita temukan dari transaksi. Ataupun lebih lanjutnya itu kita bisa menganalisa dari segi, ini kan berkaitan dengan rekomendasi juga ya. Nah itu tentunya berkembang lagi mungkin teman-teman tahu yang namanya kolaboratif filtering yang mana di sini kita melihat rekomendasi dari suatu produk berdasarkan kemiripan antar konsumennya. Jadi data antar konsumen itu ada interaksinya.
Jadi misalkan saya suka beli pakaian di toko online misalkan. Lalu saya akan direkomendasikan alat tulis misalkan atau perlengkapan olahraga. Kenapa? Karena ternyata banyak orang yang seperti saya, konsumen seperti saya yang suka belanja pakaian, share online, juga beli peralatan olahraga.
Nah itu bisa menjadi rekomendasi sistem juga. bagian dari menganalisis pattern atau pola dari data yang kita punya. Nah tentunya dalam proses ini ada beberapa metode.
Nah kalau kita berbicara metode dalam asosiasi pattern analisis atau pattern mining ini cukup panjang. Jadi mungkin teman-teman bisa coba cari-cari. Nggak sulit sih sebenarnya ada yang namanya a priori ataupun... FP3 kalau nggak salah.
Nah itu coba bisa teman-teman pelajari itu hanya sekedar metodenya saja. Sampai nanti dapat, intinya dapat kalau kita kayak gini tadi contohnya kalau kita mau belanja item A dan B lalu kita bilang seberapa kita confidentnya ini terhadap kalau dia ditempatkan dengan atau disejajarkan dengan item C itu seperti apa. Selanjutnya dari sisi lain.
major building block lainnya ada yang namanya klasifikasi. Di sini klasifikasi Bisa dibilang kita memprediksi ya, memprediksi suatu data ke dalam kelas-kelas tertentu yang sudah ditentukan di awal. Bagaimana menentukan kelas di awalnya? Tentu saja dengan anotasi.
Siapa yang menganotasi? Tentunya orang yang ahli di bidangnya. Kalau misalkan kita berbicara tentang data kesehatan, tentunya misalkan kita mau klasifikasi suatu pasien.
apakah dia terkena diabetes atau tidak berdasarkan hasil darahnya. Nah tentunya dokter yang expert di bidang tersebut yang berhak melabeli atau menganotasi supaya apa? Supaya hasil prediksi kita nanti tepat atau sesuai dengan keadaan realnya.
Jangan sampai salah kan, apalagi. di dalam data-data krusial seperti yang menyangkut dengan kesehatan atau menyangkut nyawa orang lain. Nah, klasifikasi ini tidak akan keluar dari target atau label yang ada. Jadi misalkan di sini contohnya mobil dan motor, tentu saja prediksinya akan jadi salah satu dari label ini, entah itu mobil ataupun motor hasil prediksinya.
Jadi mungkin di sini tiba-tiba muncul pesawat. Kenapa? Karena dia tidak learning atau tidak belajar.
tentang label di luar itu. Nah, beberapa metode yang mungkin bisa teman-teman coba, di sini ada decision tree, naive bias, support vector machine, KNN, sampai dengan neural network. Ataupun ada lagi hal-hal lainnya yang bisa teman-teman coba. Nah, selanjutnya ada di sini namanya clustering.
Sebagaimana tadi kita sudah sedikit bahas, bahwa... Clustering ini merupakan proses untuk menganalisa data dari segi homogenitasnya, kemiripannya. Di sini kita lihat bahwa data akan terkumpul atau terkelompokkan berdasarkan kedekatannya.
Dalam hal ini berarti semakin dekat data semakin mirip atau semakin homogen data tersebut. Sehingga kumpulan ini bisa kita nanti interpretasikan bahwa dia merupakan kluster atau kumpulan apa. Nah, di sini kalau dari secara konsep, secara umum itu dia yang ini, memaksimalkan kemiripan intraklas.
Intraklas berarti kan yang ada di dalam kelas tersebut. Jadi data point-data point yang ada di dalam kumpulan ini akan dimaksimalkan semaksimal mungkin kemiripannya itu seperti apa. Dan meminimalkan kemiripan antarklasnya, interkelas.
Jadi kalau dia sama-sama merah, pasti dia... diusahakan paling mirip gitu kan, semirip mungkin nih yang ada di dalam satu kelas ini, misalkan yang warna merah ini. Nah antara merah dengan hijau itu pasti kemiripannya itu minimal, minim, karena dia berbeda kelas. Nah dari konsep ini bisa teman-teman pilih metodenya, itu ada DB scan, ada K-means, K-medoid. key median dan lain sebagainya.
Nah ini masing-masing model atau masing-masing metode atau algoritma itu memiliki perhitungannya masing-masing. Jadi dia bisa saja memiliki kelemahan, tapi dia mungkin juga powerful atau kuat dalam suatu kasus tertentu mungkin. Nah itu bisa teman-teman pelajari lagi. Kayak misalkan gini, kalau...
K-means dia akan mencoba memaksimalkan jaraknya yang paling terdekat yang mana. Nah kalau DB scan dia tidak peduli dia jauh atau dekat, tidak peduli dia punya cluster atau tidak, yang penting dia masih masuk dalam suatu jangkauan atau neighborhood-nya kalau DB scan. Kurang lebih kayak gitu.
Mungkin nanti bisa kita bahas sedikit. mungkin satu dari jenis-jenis clustering atau klasifikasi. Nah, selanjutnya di sini ada outlier analysis, di mana di sini ide-nya adalah kita mencari data yang berbeda dari data lainnya. Nah, di sini dikatakan bahwa outlier adalah data objek yang tidak sesuai dengan behavior generalnya, secara umum behaviornya itu, nah dia malah berbeda sendiri nih datanya gitu.
Misalkan gini, contohnya dalam suatu company. ada data karyawan misalkan penghasilannya dari range 5 sampai 10 juta gitu. Nah tiba-tiba ada satu orang yang penghasilannya 50 juta gitu. Nah itu merupakan outlier.
Kenapa? Karena dalam hal ini dia berbeda sendiri dari segi penghasilannya. Nah di sini dalam poin kedua dibilang bahwa outlier bisa baik bisa juga buruk bergantung dengan pengaplikasiannya. Contohnya gini, dalam suatu fraud detection, jadi kita di sini dalam suatu transaksi, apakah transaksi ini normal atau terindikasi fraud atau kejahatan, itu kita bisa lihat dari behavior-nya. Misalkan dalam transaksi saya, biasanya saya hanya melakukan transaksi di dalam Jakarta dan Tanggerang Selatan, misalkan gitu, atau Jabodetabek lah.
Dan biasanya tidak lebih dari nominal 1 juta. Nah, jika ditemukan suatu transaksi saya, rekaman transaksi saya yang dengan nominal transaksi misalkan ratusan juta dengan lokasi misalkan di luar Pulau Jawa, nah itu juga menjadi suatu outlier gitu kan. Nah ini.
cenderung buruk. Kenapa? Karena bisa saja itu suatu transaksi, kebobolan transaksi lah istilahnya saya. Atau mungkin ini jadi hal bagus, kenapa? Nah disini jadi dari pihak keamanan bisa tahu, oh ini gawat nih bahwa data atau rekening saya bocor atau transaksi saya diretas segala macam.
Ataupun mungkin dalam kasus lainnya, misalkan yang baik nih, misalkan dari nilai mahasiswa. Kalau teman-teman mahasiswa ternyata nilainya tidak ada yang lebih dari 70, kecuali satu orang nih ada nilainya 90. Nah dia outlier tuh, tapi bukan berarti buruk. Ternyata outliernya adalah outlier yang baik. Kenapa? Karena merupakan dia mungkin saja bisa kita interpretasikan sebagai mahasiswa berprestasi.
Di sini kita bisa melakukan pendekatan outlier analisis ini dengan dua cara. Apakah kita melakukan pendekatan secara klasifikasi atau bisa juga dengan pendekatan clustering. Jadi, idenya adalah kalau dia klasifikasi tentunya kita labelkan dulu mana yang merupakan outlier, mana yang bukan. Contohnya gini, misalkan dalam fraud detection, mana transaksi yang normal, mana transaksi yang merupakan atau terindikasi fraud atau kejahatan. Nah, selanjutnya.
Kita prediksi saja dengan kasus klasifikasi, dengan prediksi binary classification, dengan dua kelas, yaitu normal dan fraud, itu nanti kita sampai dengan post-processingnya ya. Nah, itu bisa nanti dapat hasilnya. Nah, selanjutnya kalau dari secara clustering, itu kita mencoba mengklasterkan, kita coba kelompokan, nah yang tidak dapat kelompok ini yang kita biasanya sebut dia outlier. Nah ini terkait dengan major building block yang terakhir, outlier analysis, yang merupakan bagian dari memining data. Ini contoh penerapannya, bisa dari webpage analisis, klasifikasi, dan lain sebagainya.
Lalu bisa juga recommender system, ada juga basket data analisis. Dari segi medis itu ada biological dan medical data analysis, mulai dari klasifikasi penyakit sampai dengan mungkin segmentasi citra digital medis. Bisa juga melihat ekspresi gen ataupun sampai dengan pembuatan obat.
Sudah berkembang sampai sana. Selanjutnya mungkin dari segi bisnis ada customer segmentation. dalam segi lalu lintas ada traffic intelligence system. Nah, selanjutnya di sini ada post processing-nya, yang mana di sini kita lihat dari pattern evaluation, kita mengevaluasi hasil mining kita. Nah, kalau kita kaitannya dengan klasifikasi, oh dari ini dulu ya, dari asosiasi pattern mining.
Nah, itu kita bisa mencoba melihat ada yang namanya... dan support. Support dan confidence itu merupakan evaluasi untuk kasus asosiasi pattern mining. Nah, nanti teman-teman bisa lihat. Support itu lebih ke arah kemunculan.
Kemunculan, mungkin mirip sama peluang ya. Peluang kemunculan suatu item dalam kumpulan transaksi. Lalu di situ ada confidence di mana kita mempercayai bahwa item-item ini akan saling sesuai patternnya.
Misalkan saya percaya bahwa, saya confident bahwa Kalau orang beli roti dan margarin pasti beli susu. Itu ada nilai konfidennya. Itu bisa teman-teman lihat dari segi evaluasinya.
Lalu kalau dari klasifikasi tentunya ada banyak. Misalkan teman-teman bisa lihat dari akurasinya, dari banyak ya, dari recall, dari... F1 score dan lain sebagainya.
Lalu kalau dari clustering itu ada untuk melihat taraf homogenitasnya ya. Itu teman-teman bisa pakai siluet score. Atau mungkin menggunakan masih banyak lagi.
Ada Jakart juga, Jakart score dan lain sebagainya. Nanti juga pasti pengaruh dengan similarity-nya. Nah selanjutnya kalau dari all-tire analysis, itu kan karena dia mengadopsi dari klasifikasi dan clustering, tentunya menggunakan evaluasi yang sama juga. Nah selanjutnya, ada juga kan di sini di dalam cost processing itu ada clustering, cost processing ada yang namanya interpretasi. Nah ini biasanya kaitannya dengan clustering, di mana kita bisa menginterpretasikan hasil cluster tadi.
Jadi evaluasi dari clustering kan hanya sebatas melihat similarity-nya saja, sebatas melihat homogenitasnya saja. Tapi dari segi kelompok data tersebut kita harus interpretasi juga bagaimana kita bisa melihat dia homogennya itu berdasarkan apa. Selanjutnya ada visualisasi di mana yang tadi kita sempat bahas, bahwa di sini kita memvisualkan hasil mining yang sudah kita peroleh.
Nah, oke. Mungkin saya coba sampaikan lagi sedikit salah satu contohnya mungkin dari klasifikasi ya, kalau secara metode miningnya itu, klasifikasi itu seperti apa. Oke, sudah terlihat ya di layar. Ini saya coba info aja sedikit ya. Kita coba lihat prosesnya dari salah satu algoritma klasifikasi.
Nah, karena berkaitan dengan machine learning, ini saya ambil dari PowerPoint-nya machine learning. Nah, ini yang sederhana aja, kita coba dulu nih. Di sini ada namanya algoritma KNN, K-Niris Neck Burr. Di mana di sini KNN itu dia identifikasikan data berdasarkan tetangga terdekatnya. Nah, K-nya di sini adalah jumlah tetangga terdekatnya.
Kita pilih berapa gitu misalkan, 3, 5, 7, dan lain sebagainya. Nah, di sini saya contohkan misalkan saya punya data dengan dua kelas, kelas A dan kelas B. Lalu saya ingin memprediksi kalau saya punya suatu data tanda tanya ini, tidak punya label, dia akan diprediksi ke dalam kelas A atau kelas B. Nah ini saya coba, algoritmanya adalah pertama kita coba hitung jarak antar datanya ke dalam data baru. Jadi dihitung jarak tanda tanya ini ke...
Data bintang atau data merah pertama, kedua, ketiga, dan lain sebagainya. Semua data dihitung. Setelah kita hitung jaraknya, kita lihat jarak yang terdekatnya di sini berapa. Kalau kita pilih tiga tetangga terdekat misalkan.
Berarti kita lihat jarak yang terdekat dari tiga data. Di sini kalau kita lihat, Tiga data itu ada merah satu dan hijau dua. Sehingga di sini setelah kita menghitung jarak, kita melihat kedekatannya dari misalkan di sini kaknya berapa, lalu kita prediksi berarti dia ke dalam kelas yang mayoritasnya. Nah ini dari tiga tetangga terdekat, mayoritasnya adalah hijau atau kelas B.
Sehingga kita prediksi dia menjadi kelas B. Nah tentu saja di sini tantangannya adalah Kalau kita tidak tepat memilih kelas atau K-nya, tidak memilih tetangga terdekatnya secara pas, itu nanti hasilnya bisa berbeda. Contohnya gini, kalau kita pilih 3 tetangga terdekat, dia masuk ke dalam kelas B. Tapi kalau kita pilih 7 tetangga terdekat, artinya kan di sini 1, 2, 3, 4, 5, 6, 7. Nah ini ada 7 tetangga terdekat nih. Ternyata ketika 7 tetangga terdekat, dia berubah kelas menjadi kelas A.
Karena di sini mayoritasnya A dengan 4 data, sedangkan B dengan 3 data. Nah, setiap algoritma atau metode dalam klasifikasi, sebenarnya dalam semua metode itu pasti punya keunggulan dan kelemahannya masing-masing. Sehingga di sini evaluasi itu penting untuk melihat seberapa powerfulnya.
Algoritma ataupun metode kita itu terhadap data kita. Jadi setiap data itu bisa punya beda-beda gitu. Algoritma misalkan data saya yang lebih kuat itu di KNN.
Mungkin di data teman-teman lebih bagus pakai decision tree dan sebagainya. Kalau clustering itu ada K-means namanya. Jadi dia akan mengklusterkan, mengkelompokkan data berdasarkan jarak terdekatnya.
mungkin itu saja dari saya mengingat waktu juga mungkin saya kembalikan lagi ke moderator untuk sesi diskusi dan tanya jawabnya terima kasih, sekian dari saya saya kembalikan ke moderator Baiklah, terima kasih kepada Bapak Rusnanda Farhan SSB yang telah menjelaskan tentang proses of data mining. Sekali lagi, buat teman-teman yang ingin bertanya, kalian bisa bertanya dengan menggunakan aspect QnA. Nah, sekarang kita memasuki sesi tanya-jawab.
Saya akan membacakan pertanyaan-pertanyaan yang ada di... kolom chat. Jika ada yang bertanya bisa bertanya sekarang ya. Baiklah, saya rasa teman-teman semua sudah pada paham ya penjelasan dari Bapak Arusman Davaran PSSD.
Baiklah untuk selanjutnya kata penutup atau motivasi dari Bapak Rusman Davaran SSE kepada Bapak Rusman Davaran SSE waktu dan tempat dipersilakan Pak. Baik, terima kasih. Untuk kalimat penutupnya mungkin dari saya terkait dengan materi hari ini data mining itu merupakan serangkaian proses ya bagaimana kita bisa menggali atau mining informasi atau insight yang terdapat di dalam data. Sehingga nantinya bisa kita terapkan informasi tersebut terkait dengan kebutuhan yang kita inginkan.
Jadi di sini juga ada harapan saya terhadap teman-teman semua, apalagi di sini kan sebagai teman-teman, sebagai mahasiswa akademisi, di mana di sini bisa teman-teman gali lebih dalam untuk melakukan penelitian. Halo, Pak. Di penghujung acara. Sebelum menutup acara hari ini, saya meminta teman-teman untuk ikut sesi foto bersama. Kepada teman-teman peserta webinar, diharapkan untuk mengaktifkan kameranya.
Tentu. Bisa diaktifkan ya kameranya bagi yang peserta yang ada aja. Kalau Bapak Rusnanda Farhan. Oke, baiklah.
Selesai kita pada acara hari ini. Saya mengucapkan terima kasih kepada Bapak Rusnanda Farhan SSI yang telah meluangkan waktunya untuk acara webinar ini. Serta saya juga berterima kasih kepada para dosen dan staff yang telah hadir dari awal hingga akhir acara. Lalu, Pak Pula, saya ucapkan terima kasih untuk teman-teman yang senantiasa selalu mengikuti acara webinar Miss Mikro.
Saya Widya Monika Pakpahan, selaku moderator pada acara hari ini, mengucapkan terima kasih dan memaaf jika ada kesalahan selama acara webinar berlangsung.