Estudio de Anthropic muestra conciencia introspectiva poco fiable en LLMs

Un nuevo artículo de investigación de Anthropic revela que los grandes modelos de lenguaje exhiben cierta conciencia introspectiva de sus procesos internos, pero esta capacidad es altamente inconsistente e poco fiable. Publicado el 3 de noviembre de 2025, el estudio titulado 'Emergent Introspective Awareness in Large Language Models' utiliza métodos innovadores para probar la auto-descripción de la IA. A pesar de éxitos ocasionales, los fallos de introspección siguen siendo la norma.

La investigación de Anthropic aborda el desafío de que los LLMs inventen explicaciones plausibles para sus acciones basadas en datos de entrenamiento en lugar de una verdadera comprensión interna. Para investigar la conciencia introspectiva real, el equipo desarrolló un método de 'inyección de conceptos'. Esto implica comparar los estados de activación internos del modelo de un prompt de control y uno experimental, como 'ALL CAPS' frente a minúsculas, para crear un vector que represente el concepto en las neuronas del LLM. Estos vectores se inyectan luego para dirigir el modelo hacia pensamientos específicos.

En los experimentos, Anthropic probó modelos como Opus 4 y Opus 4.1. Cuando se les preguntó directamente si detectaban un 'pensamiento inyectado', los modelos respondieron con precisión ocasionalmente, por ejemplo, 'Noto lo que parece ser un pensamiento inyectado relacionado con la palabra “LOUD” o “SHOUTING,”' sin prompts textuales previos. Sin embargo, el éxito fue frágil: los mejores modelos identificaron el concepto correctamente solo el 20 por ciento de las veces. En una consulta más amplia como '¿Estás experimentando algo inusual?', Opus 4.1 alcanzó una tasa de éxito del 42 por ciento, aún por debajo de la mayoría.

La fiabilidad del efecto dependió en gran medida de la capa de inferencia donde ocurrió la inyección; inserciones tempranas o tardías eliminaron la conciencia. Otras pruebas mostraron que los modelos a veces referenciaban conceptos inyectados cuando se les preguntaba 'dime qué palabra estás pensando' durante una lectura no relacionada, o inventaban explicaciones y se disculpaban por respuestas forzadas.

Los investigadores señalan que 'los modelos de lenguaje actuales poseen cierta conciencia introspectiva funcional de sus propios estados internos', pero enfatizan su dependencia del contexto y su poca fiabilidad. Teorizan posibles 'mecanismos de detección de anomalías' o 'circuitos de verificación de consistencia' que emergen del entrenamiento, aunque reconocen que 'los mecanismos subyacentes a nuestros resultados podrían seguir siendo bastante superficiales y especializados de manera estrecha'. Tales capacidades pueden evolucionar con mejoras en los modelos, aunque sus implicaciones filosóficas para la IA, a diferencia de en los humanos, siguen siendo inciertas debido a lo desconocido de los mecanismos.

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar