طرح باحثون من جامعة تشيجيانغ تحدياً لقدرات نموذج الذكاء الاصطناعي Centaur، مجادلين بأنه يحفظ الأنماط بدلاً من فهم المهام فهماً حقيقياً. وتشير نتائجهم، التي نُشرت في دورية National Science Open، إلى وجود قصور في استيعاب التعليمات. وينتقد هذا العمل دراسة نُشرت في يوليو 2025 في دورية Nature أشادت بأداء Centaur في 160 مهمة إدراكية.
جادل علماء النفس طويلاً حول ما إذا كان العقل البشري يعمل وفق نظرية موحدة أم يتطلب دراسات منفصلة لوظائف مثل الذاكرة والانتباه. في يوليو 2025، قدمت دراسة في دورية Nature نموذج Centaur، وهو نموذج ذكاء اصطناعي بُني على نماذج لغوية كبيرة وصُقل ببيانات تجارب نفسية. وقد تردد أنه تفوق في 160 مهمة تتراوح بين اتخاذ القرار والتحكم التنفيذي، مما أثار الاهتمام بقدرة الذكاء الاصطناعي على محاكاة الإدراك البشري، وذلك وفقاً لمواد صادرة عن Science China Press ودورية National Science Open (معرف الكائن الرقمي: 10.1360/nso/20250053). وقاد الباحثان وي ليو وناي دينغ عملية النقد، مشيرين إلى حدوث فرط في التخصيص (overfitting) حيث يتعرف النموذج على أنماط بيانات التدريب بدلاً من استيعاب معاني المهام. واختبر الباحثان ذلك عن طريق تعديل الأوامر، مثل استبدال الأوصاف بعبارة 'يرجى اختيار الخيار أ'. تجاهل Centaur هذا التغيير واختار الإجابات 'الصحيحة' الأصلية، مما يشير إلى اعتماده على التخمينات الإحصائية بدلاً من الفهم. وشبّه المؤلفون ذلك بطالب يحفظ صيغ الاختبار دون فهم المحتوى. ويؤكد هذا التحديات التي تواجه تقييم العمليات الغامضة (الصندوق الأسود) لنماذج اللغة الكبيرة، والتي قد تؤدي إلى هلوسات رقمية. ولا يزال الفهم اللغوي الحقيقي يمثل عقبة رئيسية أمام الذكاء الاصطناعي الذي يهدف إلى محاكاة الإدراك البشري.