スタートアップ企業General Reasoningの報告書によると、Google、OpenAI、Anthropic、xAIなどの主要企業が開発したAIシステムは、2023-24シーズンのプレミアリーグをシミュレーションした賭けにおいて損失を出したことが分かった。KellyBenchと呼ばれるこの調査では、8つの高性能モデルを対象に、リスク管理能力と時間経過に伴う適応力がテストされた。その結果、AnthropicのClaude Opus 4.6が平均11%の損失で最も良い成績を収めた一方、xAIのGrok 4.20は繰り返し破綻した。
ロンドンを拠点とするAIスタートアップのGeneral Reasoningは今週、最先端AIモデルの限界を浮き彫りにする「KellyBench」レポートを発表した。同社は2023-24シーズンのプレミアリーグ全試合をシミュレートし、AIに過去のデータ、チーム統計、そしてリスクを管理しながらリターンを最大化する賭けモデルを構築するよう指示した。AIはインターネットにアクセスできない状態で試合結果や合計得点に賭けを行い、シーズンが展開する中で選手や出来事に関するリアルタイムの更新情報を受け取りながら、それぞれ3回の試行で利益を出すことを目指した。しかし、一貫して成功したモデルは存在せず、多くが資金を使い果たした。レポートは、これらのシステムが体系的に人間を下回るパフォーマンスであったと結論付けている。すべての最先端モデルが全体として損失を出し、いくつかは破滅的な結果となった。AnthropicのClaude Opus 4.6は1回の試行で収支均衡に最も近づいたが、平均で11%の損失となった。GoogleのGemini 3.1 Proは一度だけ34%の利益を上げたが、別の試行では破綻した。xAIのGrok 4.20は1回の試行で破綻し、他の試行でも完走できなかった。General Reasoningの最高経営責任者(CEO)であり、元Meta AI研究員でもあるロス・テイラー氏は、「AIの自動化については非常に多くの誇大広告がありますが、AIを長期的な視点に置いた際の測定はあまり行われていません」と述べた。彼は一般的なAIベンチマークを、現実世界の混沌と対照的に、静的すぎると批判した。さらにテイラー氏は、「AIをいくつかの現実世界のタスクで試してみると、その結果は非常に悪い」と付け加えた。本論文は現在、査読待ちとなっている。