Sepuluh tahun setelah AlphaGo milik Google DeepMind mengalahkan juara Go Lee Sedol, Chris Maddison merefleksikan perannya sebagai magang dalam mengembangkan AI revolusioner tersebut. Kemenangan 2016 di Seoul menandai momen penting dalam kecerdasan buatan, menunjukkan potensi jaringan saraf untuk melampaui intuisi manusia dalam permainan kompleks. Maddison, kini profesor di University of Toronto, menyoroti prinsip teknologi abadi di balik AlphaGo yang memengaruhi sistem modern seperti model bahasa besar.
Pada Maret 2016, AlphaGo milik Google DeepMind bertanding melawan Lee Sedol, pemain Go terbaik dunia, dalam seri lima pertandingan di Seoul, Korea Selatan. AI tersebut menang 4-1, mengejutkan para pengamat dengan permainannya yang intuitif. Seperti yang dicatat Sergey Brin saat itu, “AlphaGo sebenarnya memiliki intuisi. Ia membuat langkah-langkah indah. Bahkan menciptakan langkah-langkah lebih indah daripada yang bisa dipikirkan kebanyakan dari kita.” Lee Sedol kemudian mengatakan ia “terkejut.” Chris Maddison, saat itu mahasiswa master, bergabung dengan proyek sebagai magang pada musim panas 2014 setelah Ilya Sutskever membujuknya dengan argumen yang menghubungkan keahlian Go dengan kemampuan jaringan saraf dalam setengah detik—sebanding dengan forward pass korteks visual, seperti terbukti di ImageNet. Bekerja dengan Aja Huang dan David Silver, Maddison membangun jaringan saraf yang dilatih pada permainan para ahli untuk memprediksi langkah berikutnya. Pendekatan sederhana ini berhasil di mana yang lain gagal; pada akhir musim panas, jaringannya mengalahkan Thore Graepel, peneliti DeepMind dan pemain Go yang lumayan. Kompleksitas Go, dengan 10^171 posisi mungkin—jauh melebihi 10^80 atom di alam semesta yang dapat diamati—menjadikannya tantangan formidabel. AlphaGo maju dengan memainkan jutaan permainan melawan dirinya sendiri, menemukan strategi di luar permainan manusia, seperti yang dijelaskan Pushmeet Kohli di Google DeepMind: “Dengan belajar melalui permainan-permainan ini, ia bisa menemukan pengetahuan baru dan melampaui pemain level manusia.” Maddison meninggalkan tim sebelum pertandingan untuk mengejar PhD-nya tetapi berkonsultasi secara jarak jauh. Di Seoul, suasana tegang; kerumunan berbaris di trotoar menonton pertandingan di layar besar, dengan ratusan juta di China menyaksikan. Ia mengenang Aja Huang menggambarkan Lee Sedol sebagai “satu batu dari Tuhan,” yang menggarisbawahi kesenjangan yang mereka tutup. Warisan AlphaGo tetap bertahan. Noam Brown di OpenAI menyatakan, “AlphaGo secara definitif menunjukkan bahwa jaringan saraf dapat melakukan pengenalan pola lebih baik daripada manusia. Mereka pada dasarnya memiliki intuisi yang melampaui manusia.” Metodenya—pretraining pada data besar seperti permainan Go atau teks internet, diikuti pembelajaran penguatan untuk selaras dengan tujuan—mencerminkan model bahasa besar. Penerusnya mencakup AlphaFold, yang meraih Hadiah Nobel kimia untuk prediksi protein, dan AlphaProof, mencapai performa medali emas di International Mathematical Olympiad. Namun tantangan tetap ada: jaringan saraf adalah kotak hitam, seperti terlihat pada langkah 37 AlphaGo yang tidak dijelaskan, awalnya membingungkan para penonton. Kemajuan bergantung pada data berlimpah dan sinyal reward yang jelas, terutama di bidang seperti matematika dan pemrograman. Maddison menyatakan simpati untuk Lee Sedol, yang meminta maaf kepada umat manusia setelah kekalahan dan tidak bisa meninjau pertandingan secara tradisional dengan AI. Meski begitu, ia melihat AI meningkatkan apresiasi manusia terhadap permainan seperti Go dan catur, mempertahankan tujuan budaya mereka di luar sekadar kemenangan.