Estudio aísla la memorización de la razonamiento en modelos de IA

Investigadores de la startup de IA Goodfire.ai han descubierto que los modelos de lenguaje almacenan la memorización y el razonamiento lógico en vías neuronales separadas. Su artículo en preimpresión, publicado a finales de octubre, muestra que eliminar los circuitos de memorización elimina el 97 por ciento del recuerdo verbatim mientras preserva casi todas las capacidades de razonamiento. Sorprendentemente, las tareas aritméticas dependen de las vías de memorización, lo que explica las dificultades de la IA con las matemáticas.

En un artículo en preimpresión publicado a finales de octubre, investigadores de Goodfire.ai analizaron redes neuronales para distinguir entre memorización —recitar datos de entrenamiento exactos como citas— y razonamiento, como resolver problemas con principios generales. Examinaron modelos como OLMo-7B del Allen Institute for AI, encontrando una separación clara: en la capa 22, el 50 por ciento inferior de componentes de peso se activó un 23 por ciento más en datos memorizados, mientras que el 10 por ciento superior lo hizo un 26 por ciento más en texto general.

Al eliminar quirúrgicamente estas vías de memorización usando una técnica llamada K-FAC en el paisaje de pérdida del modelo, el equipo redujo el recuerdo verbatim de casi el 100 por ciento al 3,4 por ciento. Las tareas de razonamiento lógico, incluyendo evaluaciones booleanas, reglas if-then, seguimiento de objetos, preguntas sí/no de BoolQ, inferencia de sentido común de Winogrande y razonamiento científico de OpenBookQA, retuvieron del 95 al 106 por ciento del rendimiento base.

Sin embargo, las operaciones aritméticas compartían vías con la memorización, cayendo al 66 por ciento de precisión después de la eliminación. Los investigadores señalan que los modelos tratan hechos como “2+2=4” como elementos memorizados en lugar de lógica computada, similar a un estudiante que se basa en tablas de multiplicar sin entender la multiplicación. Hechos comunes como capitales de países permanecieron estables, pero los raros como CEOs de empresas cayeron un 78 por ciento.

Probado en OLMo-1B y Transformers de Visión personalizados entrenados con datos mal etiquetados de ImageNet, el método restauró el 66,5 por ciento de precisión en imágenes mal etiquetadas al eliminar la memorización. Superó técnicas previas como BalancedSubnet, logrando un 16,1 por ciento de memorización en citas no vistas frente al 60 por ciento.

Aunque prometedor para eliminar contenido con derechos de autor o dañino sin perjudicar el razonamiento, el enfoque suprime en lugar de borrar la información, que puede reactivarse con más entrenamiento. El equipo advierte que la vulnerabilidad de las matemáticas podría provenir de circuitos compartidos, y algunas habilidades complejas podrían imitar la memorización.

Este sitio web utiliza cookies

Utilizamos cookies para análisis con el fin de mejorar nuestro sitio. Lee nuestra política de privacidad para más información.
Rechazar