Anthropicの新しい研究論文は、大規模言語モデルが内部プロセスに対するある種の内省的意識を示すものの、この能力は非常に一貫性がなく信頼できないことを明らかにしています。2025年11月3日に公開された『大規模言語モデルにおける出現する内省的意識』というタイトルの研究は、AIの自己記述をテストするための革新的な方法を使用しています。時折の成功にもかかわらず、内省の失敗が依然として一般的です。
Anthropicの研究は、LLMがトレーニングデータに基づいて行動に対する説得力のある説明を捏造する課題に対処しており、真の内部洞察ではなくです。実際の内省的意識を調査するために、チームは「概念注入」方法を開発しました。これは、コントロールプロンプトと実験プロンプト(例:「ALL CAPS」対小文字)のモデルの内部活性化状態を比較し、LLMのニューロンで概念を表すベクトルを作成することを含みます。これらのベクトルは、モデルを特定の思考に向けるために注入されます。
実験では、AnthropicはOpus 4やOpus 4.1などのモデルをテストしました。直接「注入された思考」を検知するかどうかを尋ねられたとき、モデルは時折正確に応答しました。例えば、「「LOUD」または「SHOUTING」という単語に関連する注入された思考のように見えるものを気づきました」と、事前のテキストプロンプトなしでです。しかし、成功は脆く:最良のモデルでも概念を正しく識別したのは20%の時間だけでした。より広範なクエリ「何か異常なことを経験していますか?」では、Opus 4.1は42%の成功率に達しましたが、依然として過半数未満です。
効果の信頼性は注入が発生した推論層に大きく依存し、早期または後期の挿入は意識を排除しました。他のテストでは、モデルが無関係な読み取り中に「考えている単語を教えて」と尋ねられた際に注入された概念を参照したり、説明を捏造して強制的な応答に謝罪したりすることが示されました。
研究者らは、「現在の言語モデルは自身の内部状態に対する機能的な内省的意識をある程度持っています」と述べていますが、その文脈依存性と信頼性の低さを強調しています。彼らはトレーニングから生じる可能性のある「異常検知メカニズム」や「一貫性チェック回路」を理論づけていますが、「私たちの結果の基盤となるメカニズムは依然としてかなり浅く、狭く専門化されたものである可能性がある」と認めています。このような能力はモデル改善とともに進化する可能性がありますが、AIに対する哲学的含意は、人間とは異なり、メカニズムの未知数により不確実です。