Transcript for:
Teori Permainan dan Dilema Penjahat

Bayangin lu dan gua abis nyuri barang terus kita ditangkep sama polisi. Tapi karena barang buktinya itu kurang kuat, polisi butuh pengakuan dari lu ataupun gua. Dan yang mereka lakuin adalah naruh kita di ruangan yang berbeda lalu kita dikasih pilihan.

Kalau misalnya diantara kita nggak ada yang ngaku dan kita saling ngejagain, kita bakal di penjara satu bulan karena buktinya itu kurang. Tapi kalau misalnya gua hianatin lu dan gua ngasih bukti-bukti yang kuat padahal lu tetep diem, lo bakal ditahan 12 bulan dan gue bakalan bebas gara-gara polisi berterima kasih sama gue gue mau nge-spill dosa-dosanya lo. Begitu juga sebaliknya ya.

Kalau misalnya lo hianatin gue dan gue yang game aja gue bakalan ditahan 12 bulan dan lo yang bebas. Tapi kalau misalnya kita berdua sama-sama saling ngehianatin satu sama lain kita berdua bakal masuk penjara selama 8 bulan. Pilihan mana yang lo bakal ambil kalau misalnya lo ada di dalam situasi kayak gini. Secara logika Pilihan yang terbaik adalah ya kita berdua saling kerjasama dong.

Masuk akal kan? Gue masuk satu bulan, lu masuknya juga satu bulan. Tapi realitanya, kemungkinan besar orang itu bakal mikir apa yang terbaik untuk diri mereka sendiri.

Dan di masing-masing case, kalau misalnya gue memilih untuk diem aja, pilihan lu itu hianatin gue dan lu bakalan bebas atau lu milih buat diem juga tapi lu bakalan masuk penjara satu bulan. Sebaliknya, kalau misalnya gue jahat dan gue hianatin lu, buat lo juga akan lebih baik buat kianatin gue soalnya lo bakal dipenjara 8 bulan sedangkan kalau misalnya lo diam aja lo bakalan masuk 12 bulan jadi walaupun sebenarnya kalau misalnya kita mau kerjasama dan kooperatif buat diam aja adalah pilihan dengan hasil yang terbaik masing-masing dipenjara 1 bulan kemungkinan terbesar yang akan terjadi adalah kita itu bakal saling mengkhianati satu sama lain dan kita berdua dipenjara 8 bulan ini salah satu konsep yang paling populer di game theory Namanya itu Prisoner's Dilemma. Dan konsep ini bukan berlaku cuma buat masalah penjahat yang ditangkep sama polisi aja ya. Tapi ini ada kaitannya sama kehidupan, cara kita investasi, strategi geopolitik, maupun international relations.

Dan mayoritas video ini adopsi dari Veritasium tentang game theory. Saking pentingnya filosofi dan pelajaran yang gue dapat, gue bakal menjermahin ke teman-teman prinsip dan pelajarannya. Let's go! Game Theory bisa diaplikasikan juga saat perang dingin antara Amerika dan Soviet Union. Keduanya ngembangin nuklir besar-besaran, sampai puluhan ribu senjata nuklir lebih dari cukup buat saling ngancurin satu sama lain berkali-kali.

Tapi gara-gara kedua negara ini punya banyak senjata nuklir, nggak ada satupun yang bisa gunain. Karena mereka tahu, sekali yang satu itu nembak pake nuklir, satu lagi pasti ngebales. Ini sama aja kayak buruh diri.

Akhirnya, Kedua negara ini ngabisin sekitar 10 triliun dolar untuk ngembangin senjata nuklir yang sia-sia, nggak ada yang pake. Padahal bakal lebih baik lagi kalau misalnya mereka sepakat dari awal untuk sama-sama tidak mengembangkan teknologi ini. Mendingan duitnya itu dipake buat hal-hal yang lain. Tapi gara-gara Amerika dan Soviet Union ini bertindak demi kepentingan mereka masing-masing, akhirnya mereka berakhir dalam situasi di mana hasilnya itu malah lebih jelek buat dua-duanya. Nah, Balik lagi ke case gue sama lo yang di penjara tadi.

Di kehidupan nyata, realitanya gue sama lo itu gak bakal main Prisoner's Dilemma ini cuma sekali. Bisa aja kita mainnya itu berkali-kali. Soalnya kalau misalnya kita mau nyuri barang lagi, kita bakal harus kerjasama lagi di organisasi kriminal kita.

Jadi otomatis ini merubah gamenya. Kalau misalnya gue tau mengkhianati lo, ini mungkin menguntungkan sekali, tapi kapan-kapan kalau misalnya ketangkep lagi, lo udah tau bahwa gue dulu itu pernah jahat sama lo. Lu bisa pakai informasi itu buat mikir dua kali kalau misalnya lu mau kong kali kong sama gua. Ini yang bikin Robert Axelrod, seorang political scientist penasaran dan mau nyari tahu lebih dalam.

Dia bikin kompetisi dan orang itu bisa ikut turnamen dengan ngasih program alias strategi yang bakal ngelawan satu sama lain. Setiap strategi akan berhadapan dengan setiap strategi lainnya dan melawan kopi dari strategi itu sendiri. Dan setiap pertarungan akan berlangsung selama 200 putaran.

Tujuan dari turnamen ini adalah untuk memenangkan poin sebanyak mungkin selama 200 putaran, jadi bukan dilihat dari satu ronde aja. Secara total, Axelrod menerima 14 strategi yang berbeda, dan dia namain strategi ke-15 yang disebut sebagai random. Yang artinya, berkooperasi atau kong kali kong, dan nge-backstep atau nusuk dari belakang secara acak dengan rasio 1 banding 1. Salah satu strateginya adalah Freedman. Ini dimulai dari kooperatif, tapi kalau misalnya lawannya itu nge-backstep sekali aja, Freedman ini bakal nge-backstab selamanya.

Jadi, freedman ini ciri-ciri yang kagak ada ampun. Lalu ada lagi Joss. Itu dimulai dengan kooperatif, dan dia juga ngikutin apa yang diperlakukan lawannya pada langkah terakhir. Ditambah lagi sekitar 10%-nya, Joss ini nge-backstab. Ada juga strategi yang agak rumit, namanya grass camp.

Grass camp ini nge-backstab. di ronde ke-50 buat ngetest dan pelajarin strategi lawannya buat ngeliat apakah ada kelemahan yang dia bisa manfaatin. Abis semua permainan dimainkan, hasilnya itu dihitung, lalu disortir dari paling atas ke paling bawah. Yang paling menarik, program yang paling sederhana itu yang paling menang. Namanya itu TIP FOR TET.

TIP FOR TET mulanya itu kooperatif, lalu dia bakal miru percis apa yang dilakukan lawannya pada booth terakhir. Jadi TIP FOR TET bakalan copy-paste kooperasi dengan kooperasi nge-backstep dengan nge-backstep. Tapi cuman sekali.

Kalau misalnya lawannya itu berkooperasi lagi, dia juga bakal balik lagi berkooperasi juga. Saat Tid Fortet ngelawan Freedman, keduanya itu mulai dengan berkooperasi dan terus berkooperasi. Skornya itu maksimal gara-gara berkooperasi secara full dari awal sampai akhir.

Saat Tid Fortet itu bermain lawan Josh, dua-duanya itu mulai dengan berkooperasi, tapi di ronde ke-6, si Josh ini nge-backstep. Dan ini memicu perlawanan yang bolak-balik. Dan ini bisa bikin kalian ngertiin geopolitik juga, dimana Iran baru aja ngirim misal, soalnya dia itu harus serang balik gara-gara Israel nyerang embassy Iran dan ngebunuh general mereka.

Tapi masalahnya, kalau misalnya lawan Joss, ada 10% kans dia itu randomly nge-backstep padahal musuhnya itu lagi kagak nge-backstep, hasilnya itu jadi parah, soalnya dua-duanya bakalan nge-backstep selamanya. Ini juga sama ya yang kayak kita lihat dalam politik dan hubungan internasional. Dan gara-gara pada saling balas dendam, Tid Fortet dan Josh hasilnya itu jelek.

Tapi gara-gara Tid Fortet berhasil berkooperasi dengan cukup banyak dengan strategi lainnya, Tid Fortet tetap dapat skor yang paling tinggi. Yang paling mind-blowing, semua strategi dengan kinerja terbaik, termasuk Tid Fortet, memiliki 4 kualitas. Pertama, mereka semua adalah strategi yang jadi orang baik. Dia boleh nge-backstab, tapi itu khusus respons lawannya yang udah jahat duluan. Jadi Tid Fortet adalah strategi orang baik.

Dia bisa ngelawan, tapi cuma sebagai pembalasan. Sebaliknya, ada strategi orang jahat. Definisi strategi orang jahat adalah strategi yang nge-backstab duluan. Jadi Joss ini tergolong jahat. Dari 15 strategi turnamen ini, 8 strategi itu orang baik dan 7-nya itu strategi yang jahat.

8 strategi teratas, semuanya itu strategi orang baik. Dan bahkan strategi orang baik dengan kinerja yang paling jelek itu masih jauh lebih unggul daripada strategi jahat dengan skor yang paling tinggi. Lalu kualitas penting kedua adalah memaafkan.

Strategi memaafkan adalah strategi yang bisa membalas, tapi dia itu nggak nyimpen dendam. Jadi tip for Ted adalah strategi pemaaf. Dia bakal ngebales kalau misalnya lawannya itu ngebackstab, tapi apa yang terjadi sebelum-sebelumnya, kecuali ronde yang terakhir, itu nggak bakal mempengaruhi keputusan saat ini.

Friedman, di sisi lain, itu strategi yang tidak kenal ampun. Kalau misalnya dia udah di-backstep sekali aja, strategi Friedman itu bakal membabi buta dan hajar terus sampai permainan selesai. Nggak ada ampun.

Dan kadang-kadang ada dari kita yang kayak gitu ya, maunya itu keras, nggak ada ampun. Dan itu mungkin bikin kita ngerasa hebat dan kuat, tapi strategi ini nggak baik dalam jangka panjang. Kesimpulan bahwa orang baik dan memaafkan itu malah jadi yang unggul, itu ngagetin banyak para-para ahli.

Banyak yang coba untuk jadi licik dan bikin strategi yang nge-backstep duluan. dengan harapan mereka itu bisa dapat keunggulan sedikit demi sedikit dan akhirnya jadi pemenang. Tapi semuanya itu gagal dalam jangka panjang. Lalu diulangi lagi dengan turnamen nomor dua.

Dan sekarang ada 62 strategi yang berbeda dan satu yang random. Dan perserta turnamennya ini pada tahu hasil ronde pertama dan mereka bisa pakai hasil dari apa yang mereka pelajarin buat mikirin strategi yang baru. Ini bikin dua kebu. Ada yang mikir bahwa jadi orang baik dan pemaaf itu sifat yang unggul, jadi strateginya itu megang prinsip orang baik dan yang memaafkan. Kubu kedua, mengantisipasi bahwa orang lain itu bakalan jadi orang baik dan pemaaf, dan mungkin terpengaruh dengan mantra, Nice guys finish last.

Jadi mereka nyoba strategi orang jahat dan berusaha buat ngambil kesempatan dari orang-orang yang baik dan pemaaf. Salah satu strategi yang jahat ini adalah, Di ronde pertama, dia langsung nge-backstep buat lihat reaksi lawannya. Ya.

Kalau misalnya lawannya itu ngebales, tester bakal minta maaf dan main kayak tit for tat untuk sisa durasi gamenya. Kalau misalnya lawannya itu ternyata kagak ngebales, tester bakal ngebackstep setiap 2 ronde sekali. Tapi sekali lagi, jadi orang yang jahat itu ternyata nggak ada gunanya. Dan sekali lagi, tit for tat adalah strategi yang paling efektif. Strategi jadi orang baik itu ternyata tetap paling bagus.

Karena antara 15 strategi teratas, cuma 1 strategi itu yang jahat. Sebaliknya, antara 15 strategi peringkat terbawah, cuma satu strategi orang baik. Dan setelah turnamen kedua, Axelrod mengidentifikasi kualitas lain yang membedakan strategi yang hasilnya bagus lawan yang nggak bagus. Kualitas yang ketiga adalah retaliatory. Artinya, kalau misalnya lawan melakukan serangan, segera serang balik.

Jangan mau dibully dan diinjek-injek. Di sisi lain, ada strategi always cooperate, yang selalu berkooperasi mau apapun lawannya milih, mau nyerang dia atau mau baik sama dia. Tapi hasilnya, dia ini dibully dan diinjek abis-abisan.

Jadi always cooperate terlalu mudah untuk dimanfaatin. Defaulted, di sisi lain, sangat susah untuk dimanfaatin. Kualitas terakhir yang diidentifikasi adalah komunikasi dengan jelas. Strategi yang nggak jelas, yang terlalu ngacak, bikin susah untuk dipahami, soalnya susah buat ngebangun pola kepercayaan terhadap program seperti itu. Lo gak bakal bisa paham apa yang dia bakal lakukan, jadi setiap kesempatan sekalian aja lo hajar dia juga.

Jadi menarik ya, empat kualitasnya itu adalah jadi orang yang baik, pemaaf, retaliatory alias gak bisa nerima buat diinjek-injek, dan juga komunikasi dengan jelas. Dan ini bisa menjelaskan langkah yang dilakukan sama Iran. Di sini gue bukan di sisi Iran atau Israel ya, dan tentunya gue tidak membenarkan siapapun yang nyerang. Tapi kita harus bisa memposisikan diri di masing-masing negara secara netral supaya kita bisa baca dan tahu apa yang kita perlu lakukan.

Dan gue pakai contoh ini soalnya ini contoh yang paling baru kejadian. Tanggal 1 April 2004, embassy Iran itu diserang sama Israel. Lalu 14 April 2004, Iran ngebales. Iran komunikasi dengan jelas bahwa setelah serangan ini udah case closed. Kecuali Israel memutuskan untuk nyerang balik lagi.

Jadi nggak ambigu positioningnya. Lalu Iran juga cuma nyerangnya itu sekali atas serangan Israel. Bukan strategi dimana kalau misalnya dia itu diserang, dia bakal membabi buta dan nyerang Israel selamanya. Dan kalau misalnya lu paham ini, lu jadinya tahu cara ngebaca media dengan bijak. Gue baca di media-media, apalagi di media yang barat ya.

Ini tuh seakan-akan Irannya yang mau mengeskalasi tension di Timur Tengah. Padahal dari cara Iran melakukan serangannya terhadap Israel, ini tuh udah jelas-jelas sebuah simbol bahwa mereka itu kagak mau mengeskalasi. Dari game theory, kita paham bahwa Iran ini memenunjukkan kualitas retargetery, alias mereka nggak nerima kalau misalnya mereka ini diinjak.

Tapi mereka juga memaafkan. Mereka consider ini udah case closed, nggak mau memperpanjang walaupun general mereka udah jadi korban. Komunikasinya ini super jelas.

Jadi Iran tentunya berharap ini tidak mengeskalasi tension di Middle East. Tapi mereka ngasih unjuk bahwa mereka nggak nerima annex embasinya itu dihajar, dan generalnya mereka ini dibunuh. Bahkan sebelum mereka luncurin 300-an misal, Iran udah ngasih tau bahwa mereka bakal nyerang. Bahkan ngasih waktu supaya Israel dan allies-nya itu bisa ngedefend.

Yang diklaim Israel itu 99% misalnya itu berhasil ditangkis. Coba kalian pikir, waktu Rusia nyerang Ukraina, emangnya Putin bilang bahwa dia itu bakal nyerang Ukraina? Sama sekali kagak. Dia cuma bilang ini lagi latihan, gak ada rencana nyerang. Tapi tiba-tiba akhirnya surprise, langsung dihajar.

Tentu kita semua berharap ya, tension di Timur Tengah ini bisa menurun. Tapi minimal, secara niat kita paham bahwa Iran ini sebenarnya nggak seagresif yang dikasih unjuk media-media barat. Dan ada satu lagi yang harus dinote. Dalam Prisoner's Dilemma, nggak ada satu strategi yang bulletproof dan selalu ranking satu.

Strategi yang terbaik itu selalu tergantung sama lawan sekitarnya. Strategi apa yang lawannya itu pakai. Ranking-ranking ini bisa berubah tergantung dari lawannya.

Misalnya, kalau misalnya kita nempatin tit for tat di lingkungan lawan-lawan yang paling jahat dan selalu nge-backstab, Ranking tit for tat itu yang terakhir. Tapi secara long term, kalau misalnya kita jalanin simulasinya, strategi yang jahat itu bakal extinct duluan. Dan dalam jangka panjang, cuma strategi orang baik itu yang bakalan survive. Bahkan, strategi tit for tat itu yang di atas. Dan proses ini ada kemiripannya sama evolusi yang dulunya setiap organisme itu cuma mikirin dirinya sendiri ke sekarang di mana berkooperasi dan gotoroyong itu malah yang hidup.

Dari clownfish dan animuni, ke lebah dan bunga, bahkan ke manusia dan bakteri. Ada dua pelajaran lagi yang paling penting. Dan gue janji kalau misalnya lu dengerin sampai akhir, lu bakalan blown away.

Yang pertama, apa yang terjadi kalau misalnya ada sedikit random error di simulasi kita? Ada noise di sistem. Soalnya dunia ini nggak selalu hitam putih. Dan kita sebagai manusia suka miskom dan berasumsi.

Misalnya, satu pemain mau berkooperasi, tapi persepsi lawannya dia ini mau nge-backstab. Random error kayak gini selalu terjadi di dunia nyata. Misalnya, di tahun 1983, satelit Soviet mendeteksi peluncuran rudal balistik antarbenua dari Amerika, padahal Amerika tidak meluncurin apapun.

Ada sebuah error yang mendeteksi pantulan sinar matahari dari awan sebagai rudal balistik. Untungnya, Stanislav Petrov, perwira Soviet yang bertugas, mengabaikan peringatan tersebut. Nah, di sini kita bisa lihat bahwa potensi kerugian akibat kesalahan signal ini bisa jadi masalah hidup dan mati bahkan saat itu.

Ini bisa jadi hidup dan matinya seluruh planet. Keseluruhan kehidupan dan kemanusiaan ini bisa musnah semua. Sekarang kita simulasiin gamenya yang ada noise. Ranking 1 lawan ranking 1. Tid Forte lawan Tid Forte sendiri.

Keduanya mulai dengan bekerja sama. Kalau misalnya ada yang mau kooperatif, tapi lawannya ngira dia ini mau nge-backstab, makanya tit for tat yang satu lagi bakal ngebales dan akhirnya pada saling serang-serangan sampai nggak selesai-selesai. Dan yang bikin parah, kalau misalnya di satu ronde tit for tat yang mau berkooperasi ini salah dilihat sekali lagi sebagai aksi yang nyerang, maka sisa gamenya ini adalah serang-serangan terus sampai habis. Lawan yang nggak ada noise, tit for tat ini berubah dari yang skornya itu bagus, jadi skor yang jelek.

Jadi, gimana cara ngatasinnya? Nah. Kita butuh strategi untuk keluar dari spiral bales-balesan yang gak selesai-selesai ini. Dan salah satu cara untuk melakukan ini adalah dengan bermain tit for tat, tetapi dengan tambahan memaafkan sekitar 10% lebih banyak. Jadi bukannya ngebales setelah setiap serangan, lu cuman ngebales 9 dari 10 serangan.

Ini ngebantu lu buat keluar dari spiral ngebales-balesan yang gak selesai-selesai, sambil tetap memberikan posisi yang tegas bahwa lu ini gak bisa dimanfaatin. Soalnya 9 dari 10-nya lu tetap hajar balik. Dan ini menurut gue yang paling keren.

Kalau misalnya kita lihat secara detail, Tid Fortet ini nggak bakal pernah menang lawan pemain yang dia itu lagi lawan. Maksudnya kayak gini, secara desain, yang Tid Fortet bisa dapat cuma kalah atau seri. Soalnya dia itu selalu mulai dengan berkooperasi.

Dan dia cuma copy-paste apa yang lawannya itu lakukan. Tapi kalau misalnya hasil dari seluruh interaksi antara strategi-strategi yang berbeda itu ditotalin, Tid Fortet itu lebih unggul dibandingkan strategi lainnya. Di sisi lain, Always Defect alias selalu nge-backstab 100%-100%-nya itu nggak pernah kalah dalam pertarungan satu lawan satu. Dia cuma bisa seri atau menang, tapi kalau misalnya kita totalin skor dari hasil seluruh interaksi lawan strategi-strategi yang berbeda, ranking mereka itu malah di bawah. Makanya ini super menarik ya, soalnya banyak yang mikir definisi kemenangan itu artinya kita harus menang lawan kompetisi kita.

Padahal, we may lose the battle, but not the war. Dan ini contohnya ada di mana-mana ya. Mulai dari kerukunan keluarga. Kalau misalnya kita lagi berantem sama pasangan kita, kadang-kadang kita itu maunya yang paling menang.

Kita maunya jadi yang terakhir buat nyemprot. Padahal seringkali, kalau misalnya kita bisa bersabar, lebih 10% memaafkan, mungkin saat itu kita bisa ngerasa kita itu kalah. Tapi untuk perkawinan kita, kalau misalnya kita lebih sering memaafkan, itu bakal lebih baik. Apalagi banyak pertengkaran itu mulai dengan komunikasi yang gak clear, alias noise.

Dan empat pelajaran ini juga jadi filosofi cara gue menjalankan konten. Di content creation, ada orang yang cara bikin viralnya itu dengan nyerang dan nenggol konten kreator lain. Mungkin itu cara yang efektif ya, supaya namanya itu bisa cepat jadi perbincangan banyak orang dan juga jadi heboh.

Tapi gue percaya dalam jangka panjang, hasilnya itu gak bakalan lebih baik daripada orang yang gak pernah nyerang duluan. Dan dalam berbisnis pun juga sama ya, dengan tim sendiri di kantor. Kita harus jadi leader yang baik, yang gak ngungkit-ngungkit kesalahan masa lalu. yang bakal ngehukum karyawan yang gak baik, misalnya tukang nyuri duit, dan komunikasinya itu tetap harus jelas.

Kenapa dia itu bersikap tegas. Semoga video ini membantu ya. Ini sedikit summary dari game firinya Veritasium. Dan kalau misalnya lu mau nonton podcast gue bareng sama anak sembilan naga dan nyanyian dia tentang kasus-kasus korupsi, lu bisa klik di sini.

Atau kalau misalnya lu mau tahu aplikasi apa yang terbaik untuk beli reksadana, lu bisa klik di sini. Thank you and I will see you guys again in the next video. Ter