Sistemas de IA de empresas líderes, incluindo Google, OpenAI, Anthropic e xAI, perderam dinheiro ao apostar em partidas de futebol durante uma simulação da temporada 2023-24 da Premier League, segundo um relatório da startup General Reasoning. O estudo, chamado KellyBench, testou oito dos principais modelos quanto à sua capacidade de gerenciar riscos e se adaptar ao longo do tempo. O Claude Opus 4.6, da Anthropic, obteve o melhor desempenho com uma perda média de 11 por cento, enquanto o Grok 4.20, da xAI, falhou repetidamente.
A General Reasoning, startup de IA sediada em Londres, divulgou o relatório KellyBench esta semana, destacando limitações nos modelos de IA de fronteira. A empresa simulou a temporada completa de 2023-24 da Premier League, fornecendo às IAs dados históricos, estatísticas das equipes e instruções para construir modelos de apostas que maximizassem os retornos enquanto gerenciassem o risco. Os modelos apostaram nos resultados das partidas e no total de gols sem acesso à internet e receberam três tentativas cada para lucrar à medida que a temporada avançava, com atualizações em tempo real sobre jogadores e eventos. Nenhum obteve sucesso consistente, sendo que muitos faliram. Os sistemas apresentaram um desempenho sistematicamente inferior ao dos humanos, concluiu o relatório. Todos os modelos de fronteira perderam dinheiro no geral, e vários sofreram prejuízo total. O Claude Opus 4.6, da Anthropic, chegou mais perto de empatar em uma rodada, com uma perda média de 11 por cento. O Gemini 3.1 Pro, do Google, alcançou um lucro de 34 por cento em uma ocasião, mas faliu em outra tentativa. O Grok 4.20, da xAI, faliu em uma tentativa e não conseguiu concluir as outras. Ross Taylor, diretor executivo da General Reasoning e ex-pesquisador da Meta AI, afirmou: “Há muito exagero sobre a automação por IA, mas não há muita mensuração ao colocar a IA em um cenário de longo prazo.” Ele criticou os benchmarks comuns de IA por serem estáticos demais, ao contrário do caos do mundo real. Taylor acrescentou: “Se você testa a IA em algumas tarefas do mundo real, ela vai muito mal.” O artigo aguarda revisão por pares.