Residual connection merupakan salah satu opsi komponen dalam mendesain neural network yang berbentuk skip connection seperti ini. Awalnya diperkenalkan pada Residual Network atau ResNet. Apa yang memotivasi residual connection ini? Ini diawali dari eksperimen membandingkan antara network 20 layer dan 56 layer. Harusnya, makin banyak layer-nya makin baik. Tapi kok nggak begitu pada eksperimennya? Network dengan 56 layer punya training error dan test error yang lebih tinggi dibandingkan dengan network dengan 20 layer. Jadi munculah pertanyaan, bagaimana kalau transformasi identity, atau tidak mengubah features-nya, malah lebih optimal pada kasus tertentu? Alias nggak butuh layer tambahan. Nah, skip connection inilah yang melambangkan transformasi identity. Input-nya lewat begitu saja tanpa ada tambahan layer yang mengubah nilai input-nya. Sisanya, atau residualnya, kalau memang diperlukan, akan dihitung oleh cabang satunya yang punya layer ini. Makanya namanya ada kata residualnya. Selain motivasi tersebut, residual connection juga bisa membantu mengurangi masalah vanishing gradient karena gradiennya bisa mengalir dari dua cabang ini. Apa itu vanishing gradient? Silakan lihat pada video ini. Hasilnya bagaimana? Grafik di kiri ini adalah error tanpa residual connection, grafik di kanan adalah error dengan residual connection. Garis tipis adalah training error, garis tebal adalah validation error. Warna biru adalah network dengan 18 layer, warna merah adalah network dengan 34 layer. Tanpa residual connection, error pada network yang lebih deep atau network dengan 34 layer lebih tinggi dibandingkan dengan network dengan 18 layer. Sedangkan dengan skip connection, network dengan 34 layer akhirnya memiliki error yang lebih rendah dibandingkan dengan network dengan 18 layer. Ini membuktikan bahwa residual connection penting dalam membangun deep network. Residual connection ini, selain pada ResNet, juga dipakai di ShuffleNet dan MobileNet versi 2. Pada skip connection, selain menggabungkan kedua features dengan penjumlahan, concatenation bisa juga digunakan. Kalau menggabungkan dengan concatenation, informasi pada kedua features tidak tercampur. Ini tentu bukan lagi untuk memprediksi residual, tapi lebih ke arah menggabungkan informasi dari beberapa features. Menggabungkan dengan concatenation contohnya dilakukan oleh DenseNet dan U-Net. Jadi, kalau teman-teman tertarik belajar lebih lanjut, jangan lupa subscribe channel ini biar nggak ketinggalan update-nya yaaa. Dah~