Étude d'Anthropic montre une conscience introspective peu fiable dans les LLMs

Un nouveau document de recherche d'Anthropic révèle que les grands modèles de langage présentent une certaine conscience introspective de leurs processus internes, mais cette capacité est hautement incohérente et peu fiable. Publié le 3 novembre 2025, l'étude intitulée 'Emergent Introspective Awareness in Large Language Models' utilise des méthodes innovantes pour tester l'auto-description de l'IA. Malgré des succès occasionnels, les échecs d'introspection restent la norme.

La recherche d'Anthropic aborde le défi des LLMs qui inventent des explications plausibles pour leurs actions basées sur des données d'entraînement plutôt que sur une véritable compréhension interne. Pour enquêter sur la conscience introspective réelle, l'équipe a développé une méthode d''injection de concept'. Cela implique de comparer les états d'activation internes du modèle à partir d'une invite de contrôle et d'une invite expérimentale, comme 'ALL CAPS' versus minuscules, pour créer un vecteur représentant le concept dans les neurones du LLM. Ces vecteurs sont ensuite injectés pour orienter le modèle vers des pensées spécifiques.

Dans les expériences, Anthropic a testé des modèles comme Opus 4 et Opus 4.1. Quand on leur a demandé directement s'ils détectaient une 'pensée injectée', les modèles ont répondu avec précision occasionnellement, par exemple, 'Je remarque ce qui semble être une pensée injectée liée au mot “LOUD” ou “SHOUTING,”' sans invite textuelle préalable. Cependant, le succès était fragile : les meilleurs modèles ont identifié le concept correctement seulement 20 pour cent du temps. Dans une requête plus large comme 'Vivez-vous quelque chose d'inhabituel ?', Opus 4.1 a atteint un taux de succès de 42 pour cent, encore en dessous de la majorité.

La fiabilité de l'effet dépendait fortement de la couche d'inférence où l'injection avait lieu ; des insertions précoces ou tardives éliminaient la conscience. D'autres tests ont montré que les modèles faisaient parfois référence à des concepts injectés quand on leur demandait 'dites-moi à quel mot vous pensez' pendant une lecture non liée, ou inventaient des explications et s'excusaient pour des réponses forcées.

Les chercheurs notent que 'les modèles de langage actuels possèdent une certaine conscience introspective fonctionnelle de leurs propres états internes', mais soulignent sa dépendance au contexte et son peu de fiabilité. Ils théoriser des mécanismes possibles de 'détection d'anomalies' ou de 'circuits de vérification de cohérence' émergents de l'entraînement, tout en reconnaissant que 'les mécanismes sous-jacents à nos résultats pourraient encore être plutôt superficiels et spécialisés de manière étroite'. De telles capacités pourraient évoluer avec les améliorations des modèles, bien que leurs implications philosophiques pour l'IA, contrairement aux humains, restent incertaines en raison d'inconnues mécanistiques.

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser