kita mulai belajar pakai hanging face ya ini haging face pendekatannya bagus sekali karena dia punya banyak sekali Free Trade model Jadi bukan cuman dari hanging face nya tapi mereka fokus ke Transformers ini Setelah itu mereka invite community untuk bikin banyak sekali model retrend yang kita bisa akses lewat Transformers yang di create oleh haging face atau true Ada yang berbayar ada yang free oke biasanya teknologi company food di sini karena mereka pengen orang experience model yang mereka buat jadi mereka bisa buat Space di sini jadi misalnya individu maupun company bisa buat Space setelah itu dia bisa buat modelnya menggunakan banyak pregren model yang sudah dipublish di sini oke mereka juga publish banyak data set tulis sekitar 12.310 kayaknya gedean ini Oke jadi komunitasnya sangat Glow ya dan [Musik] pendekatannya yang menarik karena interior kita trend Semuanya dari awal mereka low kita untuk fokus ke pret training karena training model baru pakai Transformer itu teks GPU time dan cost yang mahal sekali yang Intens kalau kita terus-terus lakuin itu itu akan mempengaruhi apa environment kita karena menyangkut sama karbon penggunaan produksi karbondioksida saya juga belum ambil yang berbayar karena baru review barangnya dan kalian bisa start dengan yang free Oke nanti kalau udah tahu caranya baru get yang berbayar Kita juga bisa deploy model yang dibuat ya Bahkan dia profit kayak user interface jadi banyak model kita bisa buat dan kita bisa buat uinya ya kalau nggak salah Untuk ui-nya dia support di radio ini Framework untuk mesin learning UI Oke jadi kita bisa share build kita punya mesin learning apps ini front ya cuma import gradio Oke kita bisa bikin UI dan ini udah integrated dengan anjing base selain ini juga bisa pakai streamline [Musik] untuk itu Nanti bisa kita lihat lebih lanjut intinya ya dia n2n mulai dari data set kita bisa upload kita bisa setup data set server kita bisa bikin model Space terus kita bisa bekerja dengan free trend model atau bikin pregren model upload di sini Setelah itu kita bisa publish sebagai FPI dan atau kita kasih provide user interface untuk bisa mencoba mesin learning model yang kita pakai dan dia sangat community base jadi akan sangat cepat karena kita akan lihat banyak sekali model-model dalam banyak tas kayak image classification oke terus tambah setiap hari Oke dan mereka sangat up to date dengan State of dilihat model yang ada di akademik community so enggak ada alasan kita nggak pakai aging face karena memang bagus sekali dan akan membuat kita keep up to date dengan model-model tip learning yang banyak dipakai untuk dan komputer Vision By the way Transformers library yang di provide sama hanging face itu startnya dari MLP tapi sekarang kita juga udah tahu bahwa Vision Transformers itu sudah mendekati performance akurasi dari net jadi bisa dibilang ini bukan cuma untuk NLP ya tapi juga untuk komputer Vision banyak sekali model-model yang sudah provide kayak image classification Oke ini harusnya internet ya tapi kalau lihat di sini model-model VIP baik dari dan CNN udah ada di sini kayak Microsoft flashnet ada di sini oke Vision Transformers dari Google Oke banyak sekali so semua model-model Vision kayaknya orang akan lomba-lombain masuk ke sini dan begitupun dengan base lainnya dia yaitu energi face Semalam saya coba cek ya jadi dia punya quotes Nanti kalian bisa cek kosnya ini kayaknya ini guidance yang make sense ya sangat Make sense untuk kita start ada 8 chapter Oke di awalnya kita harus install Ya seperti biasa ini indah sekali hidup kita karena dia udah provide library jadi saya tinggal masukin misalnya pilih install Transformers kalian bisa pakai Google collect atau kalau kalian mau yang lebih private ya dan lebih enterprising kalian bisa cek pakai paper Space ini juga murah paper space itu hanya [Musik] Ya mungkin sekitar 8 dolar per bulan nanti coba cek untuk yang pro-nya 8 dolar per bulan Oke kurang gpu-nya tapi faster dengan yang free gitu ya tapi kalau kalian udah serius team kalian bisa pakai 39 per dollar dollar per bulan oke yang free dulu Transformers setelah kita install ya ready sebenarnya jadi kita bisa pakai misalnya kita mau coba code ya tinggal masuk ke tutorial ini kita cek apa yang bisa kita lakuin dengan itu Oke ini ada tiga bagian besar Nah ini baru pertemuan pertama mungkin kita bagi 4 pertemuan aja nanti tentang lagi IPS ini jadi kita start dengan introduction Hari ini saya rencananya cover yang Transformer model kita semua understand Apa itu Transformers di minggu depannya using Transformers fine tuning dan lain-lain kita bagi keempat pertemuan berikutnya jadi total 5 ya jadi materinya dia bagi dari introduction divings kedua kita bisa share sisanya yang diintroduction Oke penting untuk spend more time di introduction karena sebenarnya kalau saya lihat basic fundamental dan konseptual yang kalian butuhin supaya bisa pakai ini optimal itu adalah memahami attention dan Transformers Oke cuman memang di komunitas Ai seluruh dunia agak sulit untuk paham apa ini attention dan Transformers karena papernya sangat dance ini paper dari Azis fast funny dia dulunya di Google sekarang dia udah punya company sendiri dia running new startup sama tim di Google mereka bikin ini sangat-sangat distraktif bahwa yang tadinya orang menggunakan atau seperti lsdm atau jarum ternyata dia bisa melihat pola attention yang easy to implement dan masih gampang di training dengan back propagation akhirnya dengan attention dan multi head attention jadi panjang ceritanya Sebenarnya mulai dari attention setelah itu self attention multihad self attention setelah itu masuk ke Transformer model yang diusulkan oleh nah unfortunitely Paper ini sangat-sangat dance ya sehingga orang kalau belajar dari Paper ini dia download apa ya terlalu dance dan memang harus punya background yang cukup di rnn di Deep learning sehingga Paper ini tapi kita beruntung ada banyak tutorial lain ya sebelum kita masuk ke hanging face chapter 1 Transfer mode Saya pengen kita bedah Paper ini supaya kita dan dengan Apa itu attention dan Transformers software yang paling bagus itu dari standford dari Profesor pvli tapi ini muridnya ruang Gau yang yang bikin materinya saya sudah cari beberapa tutorial tapi ini yang paling Make sense buat saya ada course di mled juga ngajarin Transformers dan apa attention tapi kita akan ikutin alur cerita dari ini hari so kebanyakan enerbitas itu berhubungan dengan one to one to many many many to many and many to many case untuk image dan video Oke so misalnya kita ngelakuin apa sentimen analisis jadi saya kasih teks beberapa Words di dalamnya dan saya pengen keluarin sentimennya positif atau negatif itu bisa jadi case Manager tapi kalau saya buat mesin translation Oke saya misalnya punya satu apa teks dalam bahasa Indonesia Saya pengen keluarin bahasa Inggris dan itu many to many jadi inputnya sequence bahasa Indonesia kumpulan kata-kata outputnya juga sequence bahasa Inggris kumpulan kata-kata Bagaimana dengan video translation the same itu juga untuk kita dari image frame saya bisa Translate kata-katanya dan audio framenya jadi management ada juga case one to many misalnya saya given in page kasih captionnya Ceritakan tentang image itu ya Ada juga case yang bantuan tapi the hole case of NLP natural language processing itu biasanya Masuk ke casing ya dengan data yang berbentuk teks oke Bisa audio bisa video oke so tas-tas ini yang di diserap oleh kehadiran Transformers Oke sebelumnya banyak model kita propose bahkan banyak yang sudah ditinggal ya misalnya kayak model-model seperti ini kalau X di sini adalah input sequence Oke dia masukkan ke dalam bentuk kayak recaran ya Jadi ada hidden States ada fully connected layer yang FW di situ setelah itu menghasilkan output y dan dia cari latennya setelah itu dia gabungin latennya so ide-idenya sebelumnya sudah banyak tapi papernya Aswin pas Fanny itu yang generalize ya sehingga kita sekarang masuk ke eranya Transformers Oke jadi ini yang sebenarnya jadi basis dari attention dan Transformers yang model-model seperti ini tapi itu baru di generalise oleh Aswin sehingga sampai sekarang kita masuk ke era multi head self attention atau dikenal dengan Oke kita akan pahami Transformers model dari bentuk paling sederhana Oke jadi kita berurusan dengan problem yang sering disebut sequence to sequence learning Oke givent a sequence input sequence misalnya X1 sampai XT ya anggap itu kata oke x-nya itu set of Words kata-kata atau sentence kalau digabung kata-kata kan jadi sentence ya jadi misalnya saya bilang we are eating bread kuenya itu X1 of course kita nggak bisa masukin [Musik] Network ya Jadi yang masuk ke newral Network itu harusnya bentuknya angka atau numerik Saya nggak bisa kasih masuk teks kayak we are eating bread jadi kita harus embed dulu dia ke dalam vektor dulu di ML ID kita udah belajar tentang word m-banking Gimana caranya dari kumpulan kata jadi mbd kita bisa pakai backwards kita bisa pakai word to fake ya kita bisa pakai glove kita bisa pakai elmo dan lain-lain Nah setelah dia jadi vektor artinya we are eating the bright itu the Vector X1 sampai X4 nah bagaimana bekerjanya rnn bahwa saya given input sequence X dia akan keluarin output jadi inputnya x outputnya y oke nah yang di arsitektur menggunakan RNA misalnya H1 h2h3 dan 4 dan hidden layer itu punya hidden step biasanya diimplemen dengan MLP multi layer atau sering disebut Nah setelah dia masuk ke hidden layer maka ini dia sifatnya lingkaran ya hidden layernya jadi input keluar masuk ke H2 habis itu H2 keluar masuk ke H3 input dari X3 begitu seterusnya makanya dibilang oke nah output dari layer ini itu kita sebut inisial di kode ini tapi kita kasih indeks nol karena nanti ada state state berikutnya di decodernya setelah itu ada konteks vektor C ya biasanya ditulis sebagai HT Oke HT itu pada saat h nya hidden statenya udah disampai di ujungnya data savenya jadi t nya itu maksimum value dari t Oke jadi di ujungnya jadi Biasanya kita singkat C = HT oke nah jadi tujuan dari decoder keluarin saya inisial di kode posted ya jadi encoder kasih saya inisial decodersted setelah itu kasih saya juga konteks Vector Oke nextnya decoder itu another and ya tapi dia inputnya awalnya dari s0 ya ini adalah ini juga dikasih input C oke Nah setelah itu dia mencoba untuk mendicode ya Jadi yang tadi mencoba mengencode ya dia fokus cari representasinya nih data input yang sebelah kiri yang di kanan dia Coba mendekor ya Jadi tapi waktu dia dia ikut dia kasih target dia menggunakan input dari target language yang Dia pengen Translate jadi dia Start dari s0 Oke Anda kata start di situ masuk yeno ya dia masukin konteks dia masukin inisial decoder state terus move ke S2 S3 nah ini Jadi ada starting position terus nanti dia kasih tahu kita estamos commindo Oke jadi we are eating break itu dalam bahasa mungkin ini bahasa penis kali ya dibilang estamos Oke setelah itu ada stop jadi ada start ada stop Nah dengan Begini saya bisa lakukan mesin translation salah satu use case dari sequence Bagaimana Seandainya dia one to many ya atau many Tuan ya arsitekturnya akan sedikit berubah tapi kita coba case yang lebih generik yaitu manajemen contohnya dalam sin translate ini banyak sebenarnya Oke di r&n pertama diusulkan pakai MLP terus airnya mereka pakai lsdm ya Jarwo jadi yang kotak-kotak hiddennya itu di repression oleh elastian dan jarum dan masih bisa di training dengan back propagation Oke jadi incorder decodernya masih bisa bekerja dengan baik problemnya arsitektur ini adalah kalau input sequence-nya fix size Vector oke dari input itu fix size misalnya t nya sama dengan 1000 dan bagaimana c-nya ada 1000 kan bisa nggak c nya ini saya jadikan vektor ini problem besar karena kalau ada c nya sebanyak 1000 konteks maka saya akan bikin yang sebelah kanannya 1000 1000 Network Oke karena dia harus setiap berkonteks jadi sangat tidak efisien untuk t yang besar oke bisa nggak kita pakai [Musik] ide main ideanya itu bisa nggak c-nya saya jadi invector juga sehingga saya bisa pada invector S di situ kan s nya itu S1 sampai S4 ya Bisa nggak saya bikin c nya itu ada padanannya C1 C2 C3 C4 artinya apa Saya pengen pakai konteks vektor pada setiap step di kode bagaimana kita lakuin ini ini problem sebelumnya di rnn bahwa c-nya itu skalar input bukan vektor nah tapi akhirnya lahirlah ide-ide baru bahwa c-nya itu harusnya vektor Oke Supaya saya nggak usah terlalu banyak arsitektur sebelah kanan di decoder so ini adalah ide yang membuat kelahirannya Jadi kalian harus lihat progresnya itu dari awal supaya Transformers bahwa dia idenya gini tambahin lagi setiap garis panah di situ anggap itu MLP itu adalah fungsi multi layer perseptor Oke jadi tambahin multi layer perseptor jadi output dari H masukin ke multi layer Perseption f oke inputnya adalah ST minus 1 dan hi inputnya F attention itu S jadi decoder States Oke dengan H nah decoder statenya itu t-1 Nah setelah itu anggap itu sebagai alignment score yang warna hijau outputnya oke Nah karena skor itu tidak normal lain tidak jadi probability pakai soft Max jadiin dia probability dia jadi attention weight kita sebutnya attention wait Oke bahwa kalau dijumlahin totalnya satu nilainya lebih antara 0 sampai 1 artinya dia bisa diinterpretasi attention with ini sebagai probability gitu kan karena sudah normal lagi ke satu so dari lain menscore masuk ke soft Max jadi attention weight setelah itu di arsitektur tadi kita udah punya attention weight nya nah bagaimana hitung dia punya konteks nah konteksnya karena kita udah punya probability attention waits a ya tinggal kita bilang CT = penjumlahan at dikali Hi oke dikaliin aja itu sama dengan CT akhirnya apa Saya punya vektor C soft the problem oke jadi yang tadinya single skalar C untuk satu arsitektur decoder sekarang menjadi vektor C ya yang kita sebut konteks vektor yang bisa dipadanin ya untuk setiap di kode step dia akan masuk bareng-bareng dengan Y nya ya input decodernya oke jadi kalau kita lihat fungsi decodernya itu pasti adalah fungsi aktivasi G yang inputnya YS dan C Oke Brilian idea ini sebenarnya Tapi inilah awal mula dari attention bahwa ternyata saya begini networknya Itu masih bisa bekerja baik bahwa dengan begini kita bisa repeat untuk step decoder yang lain misalnya untuk yang tadinya s0 S1 masuk y0 dan C1 abis itu C2 abis itu C3 ya C4 dan seterusnya Oke ini menyelesaikan masalah di classic rnn untuk sekuensi bahwa Akhirnya saya punya konteks vektor yang jumlahnya sama dengan statenya decoder problem good banyak sekali pencapaian kita di mana Di NLP itu berhasil karena pendekatan attention ini oke so contoh misalnya saya mau Translate mesin translation dari Inggris ke France translation misalnya inputnya the agreement on the europion Economic area worst 992 Oke outputnya gitu ya dengan attention kalau kita anggap tadi ya Ada skornya masuk ke soft Max dia jadi attention weight oke karena C konteksnya itu sama dengan attention watch dikali hidden State Oke jadi kalau kita sebut attention weight itu sebenarnya bikin kasih konteks bahwa dimana kita fokus saat itu misalnya contohnya di agreement on the europian maka attention watchnya kalau saya visualnya sebelah kanan yang warna biru karena saya lagi baca di agreement on the ya kalau saya pindah europian ekonomi perhatian saya akan dirband ekonomi pindah tuh Oke dan begitu seterusnya so dengan attention kita bisa provide better energi In this case sebagai contoh batter sign to second learning untuk mesin translasi oke nah ada yang menarik perlu dilihat di sini bahwa decodernya itu tidak peduli terhadap order dari hidden statenya ya nggak ada hubungannya sebelah kanan ini sama hidden set H1 H2 H3 sampai H4 oke maksudnya saya balik-balik urutannya h2h3 dan lain-lain di sebelah kiri tidak mempengaruhi sebelah kanan jadi kayak lulus Oke selama dia keluarin buat decoder s0 nya dia kasih dan konteksnya dia kasih artinya apa encoder statenya urutannya itu Nggak masalah buat dia yang masalah adalah dia karena dia cuman dapat input dari s0 ya dan konteks vektor Oke maka kita bisa pakai similar arsitektur oke nah ini yang membuat bahwa kita bisa Banyak sekali melakukan transfer learning bahwa saya bisa pakai Reus encoder state dari anypray train model sehingga saya bisa bikin banyak sekali editional nlpitas dengan sebelah kanan oke karena saya tidak bergantung sama state hidden state urutan dari H di sebelah kiri ya Saya cuman bergantung pada konteks dan esnya maka saya bisa Serius banyak sekali retrain model untuk dari arsitektur adalah komputer Vision Ya walaupun dia Start dari MLP NLP seperti mesin translation tapi ini bisa apply computer Vision Saya harap kalian sudah belajar tentang conclusion Oke Seandainya saya punya image kok tugas dari confusi general net dari input image itu adalah mengekstraksial features anggap gambar yang sebelah kiri itu adalah kumpulan kayak kue lapis Futures maka tugas dari CNN adalah ekstrak features itu dan kasih saya features yang lebih Loda Mansion yang saya sebut Z itu biasanya di energi saya masukin ke multi layer oke atau saya masukin ke fully connected layer Nah karena si encoder di folder sangat independen terhadap sekuens hidden state order ya tadi kita bahas sebelumnya maka misalnya Bisa nggak saya bikin dari image saya bikin givenin image saya keluarin cerita tentang image itu dalam teks Bagaimana ini bekerja so yang bisa dilakukan di sini adalah dari CNN dia kasih saya features biasanya bentuknya apa confuluted features ya bentuknya kayak matriks H kali W kali Dwi saya masukin ke fungsi MLP MLP itu multilaya persiapkan atau debit saya dapatin fungsi H Oke anggap saya output dari encoder itu di notate dengan H oke itu adalah hasil keluaran suatu penjual Network MLP dengan parameter W input Z Oke z nya adalah spasial CNN features kita udah belajar sebelumnya itu adalah MLP hasil keluarannya adalah H Nah setelah itu saya anggap dia juga punya konteks oke Nah setelah itu itu jadi ide h0 nya itu jadi input state buat decoder Oke dan setelah itu saya start decodernya pertama konteks pertama dia dapat person itu didapat head Nah model ini itu sudah dipublish tahun 9 2015 di IC ML show A10 Oke ini yang dibaca berulang-ulang mungkin sama apa yang buat Transformers sehingga dia lihat polanya ini Oh memang independen sehingga Selama saya bisa ekstrak fitur yang di sebelah kiri dan saya bisa lakukan decoder sebelah kanan oke Nah problemnya ya tadi kita udah bahas bahwa kalau c nya itu fix konteksnya itu skalar dia tidak bisa sensitif terhadap multi kontes gitu kan jadi dia harus jadi invector Oke misalnya Bagaimana seandainya ada ceritanya itu banyak ya kalau kita pengen generate long description 100 watch Maka kalau c nya itu cuman satu yaitu nggak bisa karena konteksnya cuman satu gitu kita butuh vektor konteks Oke ini tadi kita udah bahas Bagaimana caranya kita bikin vektor konteks dari z nya oke Ternyata kita bikin alignment score again ada tanda panah disitu namanya F ATT itu adalah multi layer setelah itu dia dapat linen score Nah setelah itu dia confit normalisasi pakai soft Max dia dapat attention Oke another Matrix attention Nah setelah itu dia dari attention dia hitung konteks vektor yaitu a dikali Z ya perkalian matriks ya jadi biar kelihatan perkalian matriksnya itu ada tanda somasi itu tapi sebenarnya itu sama matriks setelah itu dia dapat konteks Vector dan dia bisa lakuin oke hasilnya lebih bagus ya of course karena kontekstual dan punya attention prosesnya ini pasti kita berharap ya masih bisa pakai baik propagation di antresias ya kita nggak nyampe sini Ai modelnya sekarang so di papernya Su itu Tahun 2015 icml Dia tunjukin soft attention Oke dan Heart attention Oke biasanya Heart attention itu harus ada feedback dari environment jadi dia bilang require investment kalau soft attention dia tidak butuh investment oke Apa yang dilakukan di suet Om ya dia pakai model hot attention dibandingkan lihat attention dari image-nya itu ditandai dengan gambar buletan kayak ada lampu gitu ya Nah kalau saya pakai infusmen learning saya bisa locked berdasarkan attention saya berdasarkan posisi lampu tersebut Tapi kalau soft dia agak blur gitu ya nah teknologi seperti image captuning dengan attention itu udah banyak jadi misalnya kalau tanpa attention yang sebelah kiri dengan attention yang sebelah kanan misalnya woman is throwing oke kalau dengan attention saya bisa locked dog nya atau stop sign atau little girl atau group of people Oke atau the Trees teknologi ini sudah available dan yang digunakan oleh teknologi seperti ini adalah attention mekanism dengan r&n Oke so kita coba general Life ya bikin yang lebih general gitu ya bahwa rnn plus attention untuk sequence dan bagaimana bentuknya nah itu yang sebenarnya dilakukan oleh yang bikin Transformers bahwa dia lihat ada features nih oke bisa datang dari confusion neuralnet bisa datang dari vektor rebuding Oke untuk NLP dan dia bilang ada query Oke misalnya saya punya D misalnya featuresnya itu Z ya querynya itu h yang inputnya ya Nah setelah itu masuk ke alignment alignment score bahwa Aliens Oke dengan input H querynya dan fiturnya Z setelah itu normalis dia dengan Soft Max sehingga saya dapat attention Matrix oke Nah setelah itu saya dapetin konteks dari penjumlahan matriks dikali multiplication dan penjumlahan dari attention dan alignment score Oke saya dapat konteks vektor yang savenya ukurannya D oke sama dengan ukuran dari H atau querynya so attention ini menariknya adalah dia permutation in varian bahwa dia tidak peduli ordering dari featuresnya misalnya urutannya berubah gitu ya atau stretching dia nggak peduli dia tetap ada mekanisme attention Operation ini misalnya urutannya Saya ubah-ubah dari misalnya x0 X1 jadi X2 X1 x0 gitu ya gak perlu diatur saya gedein Vector panjang HD dan W nya f attention jadi simple dot product oke nah dan ya Jadi kalau misalnya saya anggap dia ada kayak Operation antara Q sama value gitu ya attention kita bisa melihat bahwa ini seperti ada Q dan value yang dikalikan oke jadi query dia masuk ke dalam alignment score jadi attention dan kita operate untuk menghasilkan konteks vektor oke nah bagaimana kalau querynya multiple inputnya cost kita bisa anggap dia vektor ya querynya jadi Q Oke jadi kayak database output keluarannya itu bla bla dia keluarin hasilnya y Oke mekanisme di dalamnya ternyata linen attention oke Oke so perlu di notice di sini bahwa kita bisa editing more layers dan lain-lain edding more dimensi tapi bentuknya real ya bahwa ini ada kayak query Oke dan dia akan keluar file Oke berdasarkan Q yang ada di tengah ya so kita simply bentuk attention ini jadi very general bahwa ada query Q oke Ada input Vector oke setelah itu dia kasih ke vektor ada value Vector Oke jadi mirip sebenarnya dengan ini Cuman dia kasih new term ya bahwa ada query cara gampangnya mengingatnya itu kayak database Oke bahwa ada query ada Q ada value oke waktu kita generalize ini nah sebenarnya mengganti naming convention aja ya bahwa ada alignment attention yang ada query oke nah ini ternyata bisa kita pakai pola pikirnya lebih generik Oke kalau saya bilang lain attention itu les generik tapi kalau saya bilang itu bisa kita anggap for Ende data Oke Karena yang dilihat new bukan image atau teks lalu Factor selalu matriks Oke jadi kalau inputnya adalah image yang kita lihat z-nya itu yang matriks kalau inputnya adalah watt and bedding dari energi yang kita lihat ya jadi sangat generik itu kenapa orang yang nemuin generiknya ini pinter sekali harusnya dia ngeliat polanya ya tapi idenya sangat simple biasanya hal-hal yang yang bagus itu adalah hal kompleks yang di simply dengan simple idea so dari query input Factor oke kita bilang ada query factornya ada alignment ya jadi penamaan aja diganti Gitu ya sehingga kita bisa bilang kita punya query Factor ya Nah cuman masalah juga kalau setiap saat saya pengen query query query gitu ya Nah bisa nggak kalau input query factornya saya delete Oke ini second ID ya dari fast funny yang bikin Seventeen jadi dia bilang inside of vektornya kita kalkulate ya pakai fully connected layer bisa nggak kita nggak pakai wear Factor oke bisa nggak attentionnya itu tidak based on query dalam arti kata bisa nggak dia self attention modelnya bahwa dia tidak perlu di query untuk bisa attention interesting Oke so yang dia lakukan di save attention layer Oke dia inputnya dia cuma vektor X aja jadi dari X masuk server action nggak ada query ya jadi attention of research of input jadi nolongger query Factor oke nah dengan save attention kita bisa Banyak model ya jadi misalnya dari X1 X2 x0 X2 Cell attention dia jadi y1 y0 Y2 Oke kalau saya ubah X2 X1 x0 dia jadi y2x dan seterusnya oke menarik karena walaupun saya bolak-balik ordernya ternyata in varian dia bahwa sel attentionnya sama Oke jadi sel potensial itu tidak care about order atau urutan ini adalah fitur yang bagus sekali ya bahwa kalau saya bisa punya Seventeen layer yang tidak peduli terhadap urutannya maka saya bisa punya satu kriteria yang sangat dibutuhkan oleh semua mesin learning model yaitu problemnya adalah bagaimana kita Input Kalau dia kayak language ya kalau saya bulak-balik ini kata urutan dari kata-katanya kan pasti artinya beda ya atau saya bolak-balik spasial order dari image image-nya jadi berubah gitu kan Bagaimana caranya kita tetap bisa take over atau atau include dia punya ordering Nah ide besarnya adalah pakai positional encoding ini adalah encode positional encoding ini supaya waktu masuk ke dalam self attention ya dari yang kita care urutannya 0 x 0 X1 X2 masuk ke posisi nol incoding nanti yang dimasukin ke sevension karena Seventeen ini permutation in varian Oke jadi dikasih posisi signal encoding dulu satu step untuk posisi signal and coding oke nah dengan itu kita bisa dengan self attention dengan lebih baik karena kita bisa mempertahankan urutannya itu dibutuhkan di dalam NLP atau image Processing Oke so opsi untuk positional and coding kita bisa pakai LookUp table oke ini kayak biasa ya kayak p nya itu kayak LookUp table biasa dan sudah disediakan fungsinya juga banyak ya nah ini yang diceritain di dalam papernya fast funny attention memang promotion in varian tapi untuk mempertahankan kita harus pakai positional and coding cuma kalau baca papernya makin bingung karena dia nggak jelasin ya Dia pengen keep papernya short Oke so akhirnya kita nyampe ke ide besar dari Transformers yaitu Mask self attention layer Oke jadi dalam masage attention layer inputnya hanya vektor operationnya kita ganti namanya tadi ada yang lain attention jadi key factors value vectorsnya udah di dalam Ya udah di dalam attention layernya karena dia ambil querynya dari internal Oke setelah itu dia hitung pakai soft Max nah ini operationnya Don't Worry karena di Framework itu sudah ada semua ya Jadi bukan kita bikin sendiri nih perkalian vektor dan lain-lainnya sudah ada semua di frame Oke so yang disebut Transformers itu adalah arsitektur dengan multi head self attention layer Oke jadi dari input X ke output y dia punya multi head attention head 1 sampai head berikutnya oke Nah itu kayaknya kayak ada satu kapability itu untuk men-split dan menggabungkan kembali dari multi head save attention secara paralel Oke arsitektur jadi banyak modelnya Oke tapi kalau kalian berpikir secara kivalue query tadi ya yaitu bisa kalian pikirin di dalamnya itu ada givea require gitu yang yang di dalam sel attention oke jadi di attention yang sebelumnya querynya di luar Sekarang pada saat di center udah masuk ke dalam Oke bagaimana perubahannya terhadap papernya suhu yang sebelumnya tahun 2015 ini ada Zhang atau dia bikin self attention dari image dia masukin ke CNN dapat features aman harusnya buat kalian setelah itu dia bisa define query kiss sama value dengan cara melakukan one on one satu kali satu convention dia dapatin hasil convolusinya dia sebut satu query satu kiss dan satu value setelah itu dia transpose pakai soft Max dia dapat attention way Oke agak beda dengan yang tadi ini tapi konsep ke value query itu sangat generik Oke setelah itu dia masukin attention with-nya dia dapat konteks nih oke ya perform lagi convolution setelah itu dia pakai residual connection ini kayak ide dari ya supaya dari features ke output yang terakhir itu ada residual connection dan dia pelajari dengan Nanti kalian coba cek ini menunjukkan bahwa Q value query itu sangat generik bahwa saya bisa perform baik untuk komputer Vision yang tidak mesti harus untuk apa hanya untuk energi Oke kalau kita bandingkan rnn nama Transformer rnn awalnya pakai MLP terus dia dia modifikasi jangan pakai NLP tapi pakai LSM katanya LSM lebih bagus untuk langsing tapi lsdm dia expect inputnya itu order ya Kalau tadi di Transformers dia in varian dan dia sequential kompetition jadi agak lambat nanti nah Transformers dia bagus dia dapat untuk long sequent dia bisa lakukan Dia bisa punya attention calculation dia bisa orprite untuk order maupun order komputasinya paralel karena multi head attention nya itu tadi kita bisa split sama concate dan kita bisa gedein networknya sampai billian-bilian parameters so itu summary dari attention is all you need after kalian get di penjelasan ini harusnya waktu kalian pakai Transformers library yang ada di hanging face ya muka kalian akan kayak hanging face katanya Happy katanya Oh ternyata ini maksudnya ternyata ini maksudnya gitu ya jadi lebih intuitif jadinya waktu belajar lagi Tentu saja tidak ada model yang sempurna ya untuk training kayak Transformers karena parameternya multihad attention nya banyak sekali jadi lama sekali sehingga mereka menginter juice supaya sebaiknya pakai paytren bayangkan kalau sebelum kita pakai model kita harus training berbulan-bulan menghabiskan GPU dan energi yang Power yang yang menghidupkan GPU itu itu ternyata nggak bagus buat environmental Oke so image pakai Transformer akhirnya berubah ya jadi dari CNN dapetin masuk ke Transformer and folder Oke dia keluarin konteks setelah itu konteksnya masuk ke dalam Transformer di kode dari target nah habis itu dia bisa keluarin targetnya ceritanya cukup panjang tadi tapi idenya yang harus kalian lihat ya karena ini akan sangat-sangat penting waktu kalian pakai Transformers bahwa dengan Transformers saya bisa Reus banyak Free Trade modal oke misalnya saya anggap bahwa ada tas yang saya lakukan ya di dalam encoder blog jadi dari data set features dia udah kasih konteks kita bilang Transformers nah saya dapatin encoder bloknya di trend oleh orang lain nah saya pengen lakukan pas berikutnya gitu saya bisa pakai encoder blog yang orang lain pakai gitu kan nah supaya encoder bloknya tadi apa bisa sensitif terhadap order ya kita pakai posisi lain coding Oke jadi itu tambahin fungsi kasih multihad attention Terus masuk MLP ya dia keluarin ke output Oke jadi kalau lihat di encoder blok inputnya X outputnya vektor y Oke di dalamnya ada save di posisinya landcoding ada multi head attention normal session layer untuk create attention weight setelah itu dia terus sampai ke atas oke nah bagaimana dengan decoder bloknya ini yang sebelah kirinya gitu ya nah ini kalian bisa pakai kalau misalnya memang sudah ada sebelah kirinya dari Transformer model sebelumnya dan kalian bisa lakukan decoder tas sebelah kanan dengan lebih banyak dengan memanfaatkan output dari yang sebelumnya encoder Oke jadi dia inputnya itu Start dari y0 nanti dia populer hasilnya Y nya yang paling akhir Nah dengan image caption ini ada paper yang pakai udah pakai apa Transformers hasilnya lebih bagus pasti bahkan saya tidak butuh perform cnnnya kalau orang udah lakukan Saya udah punya fitur list ya jadi misalnya ada yang udah pakai free train resnette kasih saya print resnetnya saya bisa generate itu karena dia sangat independen terhadap bisa nggak kita pakai Oke ini kan tadi saya ambil fiturnya dari CNN oke Bisa nggak kalau misalnya orang bilang bisa kita nggak usah pakai CNN sama sekali bener-bener pakai Transformers aja karena sebenarnya fungsi CNN itu hanya ngefilter z nya itu supaya keluarin z-nya gitu ya nah itu yang jadi basis dari Vision Transformers Oke ini juga banyak model Vision Transformer yang di publish di hanging face ya idenya image tadi nggak usah masukin ke nets tapi pecah-pecahin aja jadi kecil-kecil oke ada paper tahun 2020 ya dia kasih collap linknya tuh di bawah dia bilangan image is worth sixteen kali sixteen works jadi dia pecahin masukin ke Transformers encoder dia dapat konteksnya masukin ke Transformers di kode dia dapat Oke ternyata hasilnya not bad ya Vision Transformers menggunakan dibandingkan dengan resnet Coba lihat resnet itu kan yang pakai Inception ya yang ada di confuse kalau lihat ditransfer akurasinya oke yang Transformers itu warna biru oke lebih bagus ya pecah-pecahin ya setelah itu masuknya decoder encoder habis itu masuk ke decoder ada beberapa influensial payper di sini ada multi scale Vision Transformers ada swing Transformer dari timnya Microsoft ada juga objek detection dengan Transformers ini bagus Dibaca tapi model-model ini kalau kalian masuk ke hugging face itu udah ada semua disana tinggal Coba ya nggak usah training ulang karena untuk training image net dari awal dengan data berjuta-juta data set seperti itu lama sekali dan mahal sekali nggak kita nggak punya duit untuk bayar GPU oke Apakah connect akan balik atau dimatiin oleh Vision Transformers itu masih two early untuk kita apa untuk kita konklut ya Ada paper Tahun 2022 membandingkan lagi antara Transformer dengan comnet ya ternyata komplete memang masih harus kita pakai bukan berarti bahwa Vision Transformer akan gantiin tapi dengan Vision Transformers kita bisa do more karena kita bisa pakai pre-print model transfer learning dengan lebih mudah dengan Vision transform Oke so ini yang jadi introduction buat kalian sebelum bermain-main Dengan apa Dengan hanging face di hugging Face code-nya pendek-pendek tapi saya pengen kalian tetap mengerti cerita dari awal Apa itu learning Terus bagaimana dia putratention terus jadi lebih generik jadi server attention terus dia pakai posisi sampai terbentuk arsitektur Transformers setelah itu kalian bisa intip banget lihat ini Oke balik lagi so set up nya gampang ya tinggal masukin ke sini kalian dapat setelah invest itu ya Nah introduction apa yang saya ceritain tadi tentang Transformers dibahas di sini dengan bahasa lebih mudah ya tapi intinya dia pengen cerita di NLP ini semua tas-tas NLP ternyata lebih bagus dilakuin dengan Transformers let's go Oke tapi untuk komputer Vision ada beberapa maskernya juga bisa jadi secara akurasi lebih bagus tapi tidak berarti bahwa Vision Transformers tidak ada gunanya ternyata dia punya banyak kelebihan juga gitu jadi saya sih ngelihat lagi invest ke depan pasti nggak cuman fokus ke NLP dia akan fokus ke kombinasi CNN dan Transformer untuk komputer Vision bisa jadi juga akan berkembang terus sehingga orang akan banyak sekali publis model di sini karena pendekatan communitynya menurut saya tepat gitu ya So what company using hanging Facebook Google ya kayaknya semua top company semua jadi kalau kita nggak ada di situ ya kita yang ketinggalan gitu ya terus gimana cara pakai Transformers di sana Nanti kalian bisa copy paste copy paste misalnya saya punya dia Divine satu objek yang disebut Line apa itu pipeline jadi kayak free Processing dan post Processing step di NLP Oke contoh misalnya saya bilang classifier kasih saya part lain untuk sentimen analisis kita nggak tahu sentimen analisis apa yang dia prepare di sana mungkin ada modelnya nanti kalau kalian lihat di dokumentasinya ya model apa yang dia pakai untuk sentimen analisis Tapi harusnya dia udah pilihin sentimen analisis terbaik terus saya kasih input test misalnya saya bilang dia kasih positif Oke kalian bisa consume pipeline menggunakan Python atau menggunakan api ya kalau misalnya nanti fpi-nya berbayar ya we have to pay oke kalau free karena bisnis modelnya di sana ya dia bisa publish ya kita bisa Express beberapa sentence Terus apa aja pipeline yang tersedia ada fitur Extraction ada filmash name entity recognition questions sentimen Yang tadi kita lihat teks amersation teks Generation translation Oke hanya beberapa itu yang di list di sini tapi akan banyak sekali karena dia Open untuk semua orang bikin model di dalam Zero shot classification kalau misalnya kalian punya data nggak punya label Oke dan kalian pengen lihat data kalian ini kira-kira potensial labelnya apa ya masukin dia ke Zero shot klasification biasanya kandidat label ini nanti dia kasih skornya ternyata Education is the better label ya Zero shot biasanya bagus dipakai untuk autolibling of art berita Oke teks Generation dengan teks Generation saya givent text in discus we will fish you how to dia generate lebih panjang oke Tentu saja dia belajar dari banyak language model dan lain-lain untuk generate ini dengan generatif model Nanti kalian harus lihat gimana baik line ini dia bentuk pakai model apa terus using model from any hub ya jadi Caranya tinggal teks Generation kalau kalian lihat di hanging face itu kan ada model ya di sini ada tasnya ya jadi misalnya image klasification translation tadi zerosot classification ini kan disebut tas ya Nah kalau di Saya mau lebih spesifik tasnya saya tekan di dalam Generation modelnya detail GP itu Oke kalian harus cek di hanging face modelnya model apa ini yang kalian pakai feel jepit itu oke dikeluarin juga bisa pakai influence FPI ya Ada pricingnya of course Jadi kalian bisa pakai 0,06 sekitar 6 center hours saya kasih pipeline Nah nanti setiap kata yang saya masukin ke kurung emas dia akan tebak sentence ya kan dia keluarin entity of Interest Oke misalnya persen organization location oke Silvia itu person dia bilang oke nama jalan ini banyak sekali dipakai untuk Intens klasification di dalam chatbot oke misalnya saya tanya Where do I work My name is nanti dia kasih skor Oke kalau bahasa Indonesia jangan tanya karena belum ada lanjut modelnya besar sekali lainnya harus kita bikin biayanya biayanya mahal sekali jadi kita nggak punya bahasa Indonesia dan translate lakukan tas-tas lainnya di dalam bahasa Inggris setelah itu final task Bagaimana dengan stamina Bagaimana dan translation nih translationnya I hope we can have Indonesian translations saya belum cek Oke kalian harus cek so di chapter 1 dijelasin lagi History of Transformers secara High Level bukan secara fundamental ya Nah kalian bisa cek baca di sini modelnya jadi besar sekali ya tapi course dari stand foto tadi is the best ya sama video ini mengenai carbon food print itu sangat-sangat engaging ya buat saya karena ternyata nge-training satu model lanjut model dengan LED TV sama dengan punya 5 mobil dia ngotorin kita punya bumi gitu ya ya pakai freeframe to go ya kalau kita lihat dari diskusi yang dikasih sama sisa ini karena tadi kita udah punya banyak base models yang sudah di training dengan Laskar corpus dan sudah dibayar GPU komputer karena kalau kita training ulang selain karbon foodprint kita harus bayar lagi itu dia jelasin Transformers ditutup dengan Transformers architecture Saya rasa kalian udah familiar dengan ini encoder decoder ya di sini tidak dijelasin jadi kayak Black Box atau yellow box kayak gini tapi tadi saya udah jelasin you will be more Happy baca dokumentasi ini disaat sudah ngerti How this world Transformer Network jadi Telin lagi encodernya tapi tidak selevel yang punya stand foto tadi ya dan dia udah implemen banyak sekali model untuk encoder kayak Albert Bird distilbert Electra dan lain-lain masing-masing ini ada papernya biasanya ini bukan nama orang si Albert ini ini nama arsitektur Oke kalau kalian lihat di sini biasanya dikasih papernya sama dikasih penjelasan tentang model tersebut Nah kalau belajar lagi face ya kalian at least harus tahu model apa yang dia pakai misalnya Albert gitu ya Bisa nggak saya apa pakai model ini untuk training jadi di sini detailnya udah dibuattin jadi yang kalian harus lakuin adalah cncoder Albert ini gimana cara kerjanya apa yang bisa saya customize Apa saya bisa tambahin sesuatu di dalamnya ya berpikir secara engineer ya bukan secara saintis lagi karena modelnya udah ada daging face juga ada Birds Ya udah jadi dan kalian bisa modify Ya dijelasin di sini apa model-modelnya Oke ada destilbert ada Electra ada Roberta Oke semakin banyak kalian pelajari model-model tersebut semakin efisien Nanti kalian bisa Oke dikoder modelnya ada beberapa model di sini yang dia pakai tapi jadi Transformers sama itu kan pasti 2 elemen utamanya ya decoder main kode nah dia sediakan beberapa model untuk encoder dan juga untuk decoder nah encoder itu biasanya dari input dia keluarin tadi apa ya konteks ya konteks Tractor dan dia keluarin ke decoder itu inisial statenya untuk di folder supaya decodernya bisa jalan jadi dia fokus ke input dan build representation kalau decoder dia fokus ke features yang konteks yang dia masuk dan dia generate output second nah di hugging Face dia udah sediain beberapa type of decoder ya yang sudah pakai outer regreside tadi juga di Stanford cost itu udah ada auto regresif ya ini ada ctrl GPT GP itu dan Transformers XL Oke jadi udah lengkap ini akan terus dia tambahin kalau kurang Nah kalau kita gabungin antara decoder dengan encoder itu kita sebut siklus to seconds model kadang kita cuman butuh encoder kadang kita cuman butuh decoder tapi kalau saya mau lakukan sequence to sequence modeling dengan Transformers sudah ada beberapa arctivator yang diatasi kayak bark Oke Biasanya kalau ada m ini Kalau nggak salah mobile ya ini saya lagi ada satu bukan jadi dia udah kasih yang bisa di Reus ya bahaya sama limitation of course nggak ada model yang apa ya yang free of buyes Oke misalnya saya punya pipeline terus Saya pengen tahu misalnya saya bilang Disman world as oke tapi ternyata modelnya itu nggak ngeluarin bahwa ini apakah ini cuma men ternyata lawyer juga bisa Bisa apa perempuan gitu ya daftar juga bisa perempuan jadi baiknya tinggi ini so pasti ada limitasi dari sisi buyes ya yang nggak ada yang sempurna tapi at least dengan semua model yang disediain dan data set yang disediain dengan oleh haging face kita bisa download ya Oke SOS in summary hanging face udah kasih banyak sekali State of di atmodel untuk encoder decoder dan encoder plus dikoder oke ini harus dipelajari spend time baca-baca model ini kapan pakai apa bedanya Albert Electra dengan Link yang ada di sini selebihnya kalian udah dapat introduction tadi dari yang stand code Jadi kalau kata berbunyi ada kata berbunyi Transformers udah kebayang di brand itu apa bahwa itu ada arsitektur encoder di folder ya yang di dalamnya ada multihad self attention Oke yang di range arsitekturnya dan arti teksturnya banyak variannya oke Biasanya ada kata so lanjut model biasanya menggunakan apa encoder dan lain-lain jadi harus familiar dengan arsitektur arsitektur dasar sehingga waktu pakai masuk ke Chapter 2 nanti kita bisa belajarnya lebih efisien Oke that's it for pertemuan chapter pertama nanti kita lanjut ke 2 Ya silahkan kalau ada pertanyaan tadi yang kosnya Stanford nanti saya kirim ke apa harusnya bisa dicari di internet ya itu juga tadi dari cs224 ya cari aja yang slide ini di internet ya ini menjelaskan history dan paper utama dari ini gampang ya kalian tinggal copy paste di sini Oke coba kita coba satu mana tadi contohnya contohnya tadi Ntar nggak ada contoh pot yang bisa di paste tadi kan ada ntar ya ya Setelah kalian install ya nya jadi dari pipeline itu banyak yang dia support cuma lihat beberapa banyak di download tuh pasti besar karena paytren di dalam bayangkan ini terjadi di mesin kalian Oh panjang ceritanya itu kan kalau harus di training dulu baru sampai masuk ke sentimen analisis Coba yang ini si rosot classification dia download 1,63 free fire mode Oke baru dia bisa lakuin selama kita belajar hanging face Ya kita harus pelajari model-model yang dia pakai untuk lainnya tapi quotenya pendek-pendek karena dia sudah fokus dulu ke chapter 1 mungkin 2 Minggu lagi kita masuk Bagaimana make lebih dalam ke pipeline nya model apa yang dia pakai bagaimana kita fine tuning preparing mode Oke ini akan interesting sekali karena kalau kita nunggu nge-training sendiri lainnya nunggu dibeliin GPU dibayarin GPU sama kantor ya panjang ceritanya itu ya so ini akan mempercepat proses kita belajar mungkin bisa bikin komersial features dengan pakai paid FPI atau paidliber yang ada pertanyaan sampai sini atau udah nggak sabar mau coba silahkan kalau udah mau coba ya kita stop cost-nya di sini sampai ketemu minggu Dua minggu lagi