Um novo artigo de pesquisa da Anthropic revela que grandes modelos de linguagem exibem alguma consciência introspectiva de seus processos internos, mas essa capacidade é altamente inconsistente e não confiável. Publicado em 3 de novembro de 2025, o estudo intitulado 'Emergent Introspective Awareness in Large Language Models' usa métodos inovadores para testar a auto-descrição da IA. Apesar de sucessos ocasionais, as falhas de introspecção permanecem a norma.
A pesquisa da Anthropic aborda o desafio dos LLMs confabularem explicações plausíveis para suas ações com base em dados de treinamento em vez de verdadeira percepção interna. Para investigar a consciência introspectiva real, a equipe desenvolveu um método de 'injeção de conceito'. Isso envolve comparar os estados de ativação internos do modelo de um prompt de controle e um experimental, como 'ALL CAPS' versus minúsculas, para criar um vetor representando o conceito nos neurônios do LLM. Esses vetores são então injetados para direcionar o modelo a pensamentos específicos.
Em experimentos, a Anthropic testou modelos como Opus 4 e Opus 4.1. Quando perguntados diretamente se detectavam um 'pensamento injetado', os modelos responderam com precisão ocasionalmente, por exemplo, 'Eu noto o que parece ser um pensamento injetado relacionado à palavra “LOUD” ou “SHOUTING,”' sem prompts textuais prévios. No entanto, o sucesso era frágil: os melhores modelos identificaram o conceito corretamente apenas 20 por cento das vezes. Em uma consulta mais ampla como 'Você está experimentando algo incomum?', o Opus 4.1 alcançou uma taxa de sucesso de 42 por cento, ainda abaixo da maioria.
A confiabilidade do efeito dependia fortemente da camada de inferência onde a injeção ocorreu; inserções precoces ou tardias eliminavam a consciência. Outros testes mostraram que os modelos às vezes referenciavam conceitos injetados quando perguntados 'me diga qual palavra você está pensando' durante uma leitura não relacionada, ou confabulavam explicações e se desculpavam por respostas forçadas.
Os pesquisadores observam que 'os modelos de linguagem atuais possuem alguma consciência introspectiva funcional de seus próprios estados internos', mas enfatizam sua dependência de contexto e não confiabilidade. Eles teorizam possíveis 'mecanismos de detecção de anomalias' ou 'circuitos de verificação de consistência' emergentes do treinamento, embora reconheçam que 'os mecanismos subjacentes aos nossos resultados ainda podem ser bastante superficiais e especializados de forma estreita'. Tais capacidades podem evoluir com melhorias no modelo, embora suas implicações filosóficas para a IA, ao contrário dos humanos, permaneçam incertas devido a desconhecidos mecanísticos.