浙江大学の研究チームは、Centaur AIモデルがタスクを真に理解しているのではなくパターンを記憶しているに過ぎないとして、その能力に異議を唱えた。National Science Open誌に掲載された彼らの調査結果は、指示理解における同モデルの限界を示唆している。この研究は、Centaurが160の認知タスクで優れたパフォーマンスを示したと称賛した2025年7月のNature誌の論文を批判するものとなっている。
心理学者の間では、人間の精神が統一理論に基づいて機能しているのか、それとも記憶や注意といった個別の機能として研究すべきなのかが議論されてきた。2025年7月、Nature誌の研究で、大規模言語モデルをベースにし、心理実験データで洗練させたAIモデル「Centaur」が発表された。Science China PressおよびNational Science Open誌(DOI: 10.1360/nso/20250053)の資料によれば、同モデルは意思決定や実行機能にわたる160のタスクで優れた結果を残したとされ、人間の認知を模倣するAIとして注目を集めた。これに対し、ウェイ・リウ(Wei Liu)氏とナイ・ディン(Nai Ding)氏が主導する研究チームは、モデルがタスクの意味を理解するのではなく、トレーニングデータのパターンを認識する「過学習」を起こしていると指摘し、批判を行った。彼らは、タスクの説明を「オプションAを選んでください」と変更するなどの方法で検証を行った。Centaurはその変更を無視して元の「正解」を選んだため、これは理解に基づいているのではなく統計的な推測に依存していることを示している。著者らは、これを内容を理解せずにテストの形式を暗記する学生に例えた。このことは、大規模言語モデルのブラックボックス的なプロセスを評価する際の課題を浮き彫りにしており、ハルシネーション(幻覚)を引き起こす可能性もある。真の言語理解は、人間の認知をモデル化しようとするAIにとって依然として大きな壁となっている。