Des chercheurs de l'Université du Zhejiang ont contesté les capacités du modèle d'IA Centaur, arguant qu'il mémorise des modèles au lieu de réellement comprendre les tâches. Leurs conclusions, publiées dans National Science Open, suggèrent des limites dans la compréhension des instructions. Ces travaux critiquent une étude de juillet 2025 publiée dans Nature, qui avait salué la performance de Centaur sur 160 tâches cognitives.
Les psychologues débattent de la question de savoir si l'esprit humain fonctionne selon une théorie unifiée ou s'il nécessite des études distinctes de fonctions telles que la mémoire et l'attention. En juillet 2025, une étude parue dans Nature a présenté Centaur, un modèle d'IA fondé sur de grands modèles de langage et affiné avec des données d'expériences psychologiques. Il aurait excellé dans 160 tâches allant de la prise de décision au contrôle exécutif, suscitant un intérêt pour l'IA imitant la cognition humaine, comme détaillé dans les documents de Science China Press et de la revue National Science Open (DOI: 10.1360/nso/20250053). Les chercheurs Wei Liu et Nai Ding ont dirigé la critique, pointant du doigt un surapprentissage où le modèle reconnaît les modèles de données d'entraînement au lieu de saisir le sens des tâches. Ils ont testé cela en modifiant les invites, par exemple en remplaçant les descriptions par « Veuillez choisir l'option A ». Centaur a ignoré le changement et a choisi les réponses « correctes » originales, indiquant une dépendance aux suppositions statistiques plutôt qu'à la compréhension. Les auteurs ont comparé cela à un étudiant qui mémoriserait les formats de test sans en comprendre le contenu. Cela souligne les défis liés à l'évaluation des processus en « boîte noire » des grands modèles de langage, qui peuvent conduire à des hallucinations. La véritable compréhension du langage demeure un obstacle majeur pour l'IA visant à modéliser la cognition humaine.