Anthropic-studie visar opålitlig introspektiv medvetenhet i LLMs

En ny forskningsrapport från Anthropic avslöjar att stora språkmodeller uppvisar viss introspektiv medvetenhet om sina interna processer, men denna förmåga är mycket inkonsekvent och opålitlig. Publicerad den 3 november 2025, studien med titeln 'Emergent Introspective Awareness in Large Language Models' använder innovativa metoder för att testa AI:s självbeskrivning. Trots tillfälliga framgångar är misslyckanden med introspektion fortfarande normen.

Anthropics forskning tar upp utmaningen med att LLMs fabricerar plausibla förklaringar till sina handlingar baserat på träningsdata snarare än äkta intern insikt. För att undersöka verklig introspektiv medvetenhet utvecklade teamet en 'konceptinjektionsmetod'. Detta innebär att jämföra modellens interna aktiveringsstater från en kontrollprompt och en experimentell, såsom 'ALL CAPS' mot gemener, för att skapa en vektor som representerar konceptet i LLM:s neuroner. Dessa vektorer injiceras sedan för att styra modellen mot specifika tankar.

I experimenten testade Anthropic modeller som Opus 4 och Opus 4.1. När de frågades direkt om de upptäckte en 'injektad tanke' svarade modellerna ibland korrekt, till exempel 'Jag märker vad som verkar vara en injektad tanke relaterad till ordet “LOUD” eller “SHOUTING,”' utan tidigare textprompt. Framgången var dock skör: de bästa modellerna identifierade konceptet korrekt bara 20 procent av gångerna. I en bredare fråga som 'Upplever du något ovanligt?' nådde Opus 4.1 en framgångsgrad på 42 procent, fortfarande under majoritet.

Effektens tillförlitlighet berodde starkt på inferenslagret där injektionen skedde; tidiga eller sena insättningar eliminerade medvetenheten. Andra tester visade att modeller ibland refererade till injicerade koncept när de frågades 'berätta vilket ord du tänker på' under orelaterad läsning, eller fabricerade förklaringar och bad om ursäkt för påtvingade svar.

Forskare noterar att 'nuvarande språkmodeller har viss funktionell introspektiv medvetenhet om sina egna interna tillstånd', men betonar dess kontextberoende och opålitlighet. De teoriserar möjliga 'anomalidetektionsmekanismer' eller 'konsistenskontrollkretsar' som uppstår från träning, men erkänner att 'mekanismerna bakom våra resultat fortfarande kan vara ganska ytliga och snävt specialiserade'. Sådana förmågor kan utvecklas med modellförbättringar, även om deras filosofiska implikationer för AI, till skillnad från hos människor, förblir osäkra på grund av mekanistiska okända.

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj