Des chercheurs de la startup d’IA Goodfire.ai ont découvert que les modèles de langage stockent la mémorisation et le raisonnement logique dans des voies neuronales séparées. Leur article en prépublication, sorti fin octobre, montre que la suppression des circuits de mémorisation élimine 97 pour cent des rappels verbatim tout en préservant presque toutes les capacités de raisonnement. Étonnamment, les tâches arithmétiques dépendent des voies de mémorisation, expliquant les difficultés de l’IA en mathématiques.
Dans un article en prépublication sorti fin octobre, des chercheurs de Goodfire.ai ont analysé des réseaux neuronaux pour distinguer la mémorisation —réciter des données d’entraînement exactes comme des citations— du raisonnement, tel que résoudre des problèmes avec des principes généraux. Ils ont examiné des modèles comme OLMo-7B de l’Allen Institute for AI, trouvant une séparation nette : à la couche 22, les 50 pour cent inférieurs des composants de poids s’activent 23 pour cent plus sur les données mémorisées, tandis que les 10 pour cent supérieurs le font 26 pour cent plus sur du texte général.
En supprimant chirurgicalement ces voies de mémorisation à l’aide d’une technique appelée K-FAC sur le paysage de perte du modèle, l’équipe a réduit le rappel verbatim de près de 100 pour cent à 3,4 pour cent. Les tâches de raisonnement logique, incluant les évaluations booléennes, les règles if-then, le suivi d’objets, les questions oui/non de BoolQ, l’inférence de sens commun de Winogrande et le raisonnement scientifique d’OpenBookQA, ont conservé 95 à 106 pour cent des performances de base.
Les opérations arithmétiques, cependant, partagent des voies avec la mémorisation, tombant à 66 pour cent de précision après suppression. Les chercheurs notent que les modèles traitent des faits comme «2+2=4» comme des éléments mémorisés plutôt que comme une logique calculée, à l’image d’un élève s’appuyant sur des tables de multiplication sans comprendre la multiplication. Les faits courants comme les capitales des pays restent stables, mais les rares comme les PDG d’entreprises chutent de 78 pour cent.
Testé sur OLMo-1B et des Transformers de Vision personnalisés entraînés sur des données ImageNet mal étiquetées, la méthode a restauré 66,5 pour cent de précision sur des images mal étiquetées en supprimant la mémorisation. Elle surpasse les techniques antérieures comme BalancedSubnet, atteignant 16,1 pour cent de mémorisation sur des citations non vues contre 60 pour cent.
Bien que prometteuse pour supprimer du contenu protégé par copyright ou nuisible sans altérer le raisonnement, l’approche supprime plutôt qu’efface l’information, qui peut se réactiver avec un entraînement supplémentaire. L’équipe met en garde que la vulnérabilité des mathématiques pourrait provenir de circuits partagés, et certaines capacités complexes pourraient imiter la mémorisation.