AI-system från ledande företag som Google, OpenAI, Anthropic och xAI förlorade pengar när de satsade på fotbollsmatcher under en simulerad Premier League-säsong 2023–24, enligt en rapport från startup-företaget General Reasoning. Studien, som kallas KellyBench, testade åtta toppmodeller på deras förmåga att hantera risker och anpassa sig över tid. Anthropics Claude Opus 4.6 presterade bäst med en genomsnittlig förlust på 11 procent, medan xAI:s Grok 4.20 misslyckades upprepade gånger.
General Reasoning, en London-baserad AI-startup, släppte KellyBench-rapporten denna vecka, vilket belyser begränsningar hos ledande AI-modeller. Företaget simulerade hela Premier League-säsongen 2023–24 genom att ge AI-modellerna historisk data, lagstatistik och instruktioner för att bygga bettingmodeller som maximerar avkastning samtidigt som de hanterar risker. Modellerna satsade på matchresultat och antal mål utan internetåtkomst och fick tre försök var att gå med vinst allt eftersom säsongen fortlöpte med uppdateringar i realtid om spelare och händelser. Ingen lyckades konsekvent, och många gick i konkurs. Systemen underpresterade systematiskt jämfört med människor, konstaterar rapporten. Varje ledande modell förlorade totalt sett pengar, och flera upplevde total ekonomisk ruin. Anthropics Claude Opus 4.6 kom närmast att gå plus minus noll vid ett tillfälle, med en genomsnittlig förlust på 11 procent. Googles Gemini 3.1 Pro uppnådde en vinst på 34 procent vid ett tillfälle men gick i konkurs vid ett annat försök. xAI:s Grok 4.20 gick i konkurs vid ett försök och misslyckades med att slutföra de andra. Ross Taylor, General Reasonings vd och före detta Meta AI-forskare, säger: ”Det finns så mycket hajp kring AI-automatisering, men det görs inte mycket mätning av att sätta AI i en långsiktig miljö.” Han kritiserade vanliga AI-riktmärken för att vara för statiska, till skillnad från den verkliga världens kaos. Taylor tillade: ”Om man provar AI på vissa uppgifter i den verkliga världen, presterar den riktigt dåligt.” Rapporten inväntar referentgranskning.