Pesquisadores da startup de IA Goodfire.ai descobriram que modelos de linguagem armazenam memorização e raciocínio lógico em vias neurais separadas. Seu artigo em preprint, lançado no final de outubro, mostra que remover circuitos de memorização elimina 97 por cento do recall verbatim enquanto preserva quase todas as habilidades de raciocínio. Surpreendentemente, tarefas aritméticas dependem de vias de memorização, explicando as dificuldades da IA com matemática.
Em um artigo em pre-print lançado no final de outubro, pesquisadores da Goodfire.ai analisaram redes neurais para distinguir entre memorização —recitar dados de treinamento exatos como citações— e raciocínio, como resolver problemas com princípios gerais. Eles examinaram modelos como o OLMo-7B do Allen Institute for AI, encontrando uma separação limpa: na camada 22, os 50 por cento inferiores dos componentes de peso ativaram 23 por cento mais alto em dados memorizados, enquanto os 10 por cento superiores o fizeram 26 por cento mais alto em texto geral.
Ao remover cirurgicamente essas vias de memorização usando uma técnica chamada K-FAC no landscape de perda do modelo, a equipe reduziu o recall verbatim de quase 100 por cento para 3,4 por cento. Tarefas de raciocínio lógico, incluindo avaliações booleanas, regras if-then, rastreamento de objetos, perguntas sim/não do BoolQ, inferência de senso comum do Winogrande e raciocínio científico do OpenBookQA, retiveram 95 a 106 por cento do desempenho base.
Operações aritméticas, no entanto, compartilhavam vias com memorização, caindo para 66 por cento de precisão após a remoção. Os pesquisadores observam que os modelos tratam fatos como “2+2=4” como itens memorizados em vez de lógica computada, semelhante a um aluno que depende de tabuadas sem entender a multiplicação. Fatos comuns como capitais de países permaneceram estáveis, mas os raros como CEOs de empresas caíram 78 por cento.
Testado no OLMo-1B e Transformers de Visão personalizados treinados em dados mal rotulados do ImageNet, o método restaurou 66,5 por cento de precisão em imagens mal rotuladas removendo a memorização. Superou técnicas anteriores como BalancedSubnet, alcançando 16,1 por cento de memorização em citações não vistas versus 60 por cento.
Embora promissor para remover conteúdo com direitos autorais ou prejudicial sem prejudicar o raciocínio, a abordagem suprime em vez de apagar informações, que podem ser reativadas com treinamento adicional. A equipe alerta que a vulnerabilidade da matemática pode vir de circuitos compartilhados, e algumas habilidades complexas poderiam imitar a memorização.