Década após o AlphaGo do Google DeepMind derrotar o campeão de Go Lee Sedol, Chris Maddison reflete sobre seu papel como estagiário no desenvolvimento da revolucionária IA. A vitória de 2016 em Seul marcou um momento pivotal na inteligência artificial, demonstrando o potencial das redes neurais para superar a intuição humana em jogos complexos. Maddison, agora professor na Universidade de Toronto, destaca os princípios tecnológicos duradouros por trás do AlphaGo que influenciam sistemas modernos como os grandes modelos de linguagem.
Em março de 2016, o AlphaGo do Google DeepMind enfrentou Lee Sedol, o melhor jogador de Go do mundo, em uma série de cinco partidas em Seul, na Coreia do Sul. A IA venceu por 4-1, chocando os observadores com seu jogo intuitivo. Como Sergey Brin observou na época, “AlphaGo realmente tem uma intuição. Ele faz movimentos belos. Ele até cria movimentos mais belos do que a maioria de nós poderia pensar.” Lee Sedol disse mais tarde que estava “em choque.” Chris Maddison, então estudante de mestrado, juntou-se ao projeto como estagiário no verão de 2014, depois que Ilya Sutskever o convenceu com um argumento ligando a expertise em Go às capacidades de redes neurais em meio segundo—comparável a uma passagem forward do córtex visual, como comprovado no ImageNet. Trabalhando com Aja Huang e David Silver, Maddison construiu redes neurais treinadas em jogos de especialistas para prever o próximo movimento. Essa abordagem simples teve sucesso onde outras falharam; no final do verão, suas redes derrotaram Thore Graepel, pesquisador da DeepMind e jogador decente de Go. A complexidade do Go, com 10^171 posições possíveis—muito superior aos 10^80 átomos no universo observável—o tornava um desafio formidável. O AlphaGo avançou jogando milhões de partidas contra si mesmo, descobrindo estratégias além do jogo humano, como explicou Pushmeet Kohli, do Google DeepMind: “Ao aprender através desses jogos, ele poderia descobrir novo conhecimento e ir além dos jogadores de nível humano.” Maddison deixou a equipe antes das partidas para prosseguir seu doutorado, mas consultou remotamente. Em Seul, a atmosfera era intensa; multidões alinhavam as calçadas assistindo aos jogos em grandes telas, com centenas de milhões na China sintonizando. Ele recordou Aja Huang descrevendo Lee Sedol como “uma pedra de Deus”, sublinhando a lacuna que eles superaram. O legado do AlphaGo perdura. Noam Brown, da OpenAI, afirmou: “O AlphaGo mostrou definitivamente que redes neurais podem fazer reconhecimento de padrões melhor que humanos. Elas podem essencialmente ter intuição que supera a humana.” Seu método—pré-treinamento em vastos dados como jogos de Go ou texto da internet, seguido de aprendizado por reforço para alinhar com objetivos—espelha os grandes modelos de linguagem. Sucessores incluem AlphaFold, que ganhou o Prêmio Nobel de Química pela previsão de proteínas, e AlphaProof, que alcançou desempenho de medalha de ouro na Olimpíada Internacional de Matemática. Ainda assim, desafios permanecem: redes neurais são caixas-pretas, como visto no movimento 37 inexplicável do AlphaGo, que inicialmente confundiu os espectadores. O progresso depende de dados abundantes e sinais de recompensa claros, particularmente em campos como matemática e programação. Maddison expressou simpatia por Lee Sedol, que se desculpou com a humanidade após a derrota e não pôde revisar a partida com a IA de forma tradicional. Ainda assim, ele vê a IA aprimorando a apreciação humana de jogos como Go e xadrez, preservando seu propósito cultural além da mera vitória.” .