Selon un rapport de la startup General Reasoning, les systèmes d'IA d'entreprises de premier plan, dont Google, OpenAI, Anthropic et xAI, ont perdu de l'argent en pariant sur des matchs de football lors d'une simulation de la saison 2023-24 de Premier League. L'étude, intitulée KellyBench, a évalué huit modèles de pointe sur leur capacité à gérer les risques et à s'adapter au fil du temps. Le modèle Claude Opus 4.6 d'Anthropic a enregistré les meilleurs résultats avec une perte moyenne de 11 pour cent, tandis que Grok 4.20 de xAI a échoué à plusieurs reprises.
General Reasoning, une startup spécialisée dans l'IA basée à Londres, a publié cette semaine le rapport KellyBench, mettant en lumière les limites des modèles d'IA de pointe. L'entreprise a simulé l'intégralité de la saison 2023-24 de Premier League, en fournissant aux IA des données historiques, des statistiques d'équipes et des instructions pour concevoir des modèles de paris visant à maximiser les rendements tout en gérant les risques. Les modèles ont parié sur les résultats des matchs et sur le nombre total de buts sans accès à Internet, et ont bénéficié de trois tentatives chacun pour réaliser des bénéfices au fil de la saison, avec des mises à jour en temps réel sur les joueurs et les événements. Aucun n'a réussi de manière constante, et nombre d'entre eux ont fait faillite. Le rapport conclut que les systèmes ont systématiquement enregistré des performances inférieures à celles des humains. Tous les modèles de pointe ont globalement perdu de l'argent, et plusieurs ont connu la ruine. Le modèle Claude Opus 4.6 d'Anthropic est celui qui s'est le plus approché de l'équilibre lors d'un essai, avec une perte moyenne de 11 pour cent. Gemini 3.1 Pro de Google a réalisé un profit de 34 pour cent lors d'une tentative, mais a fait faillite lors d'une autre. Grok 4.20 de xAI a fait faillite lors d'une tentative et n'est pas parvenu à terminer les autres. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, a déclaré : « Il y a tellement de battage médiatique autour de l'automatisation par l'IA, mais il existe peu de mesures sur l'intégration de l'IA dans un cadre temporel à long terme. » Il a critiqué les critères d'évaluation habituels de l'IA, les jugeant trop statiques par rapport au chaos du monde réel. Taylor a ajouté : « Si vous testez l'IA sur certaines tâches du monde réel, elle obtient de très mauvais résultats. » Le document est en attente d'évaluation par des pairs.