Studie isolerar memorering från resonemang i AI-modeller

Forskare på AI-startupen Goodfire.ai har upptäckt att språkmodeller lagrar memorering och logiskt resonemang i separata neurala vägar. Deras preprint-papper, släppt i slutet av oktober, visar att borttagning av memoreringkretsar eliminerar 97 procent av verbatim-återkallelse samtidigt som nästan alla resonemangsförmågor bevaras. Överraskande nog förlitar sig aritmetiska uppgifter på memoreringvägar, vilket förklarar AI:s matematiska svårigheter.

I ett preprint-papper släppt i slutet av oktober analyserade forskare från Goodfire.ai neurala nätverk för att skilja mellan memorering — att recitera exakta träningsdata som citat — och resonemang, såsom att lösa problem med allmänna principer. De undersökte modeller som Allen Institute for AI:s OLMo-7B och fann en tydlig separation: på lager 22 aktiverades de lägre 50 procenten av viktkomponenterna 23 procent högre på memoriserad data, medan de övre 10 procenten aktiverades 26 procent högre på allmän text.

Genom att kirurgiskt ta bort dessa memoreringvägar med en teknik kallad K-FAC på modellens förlustlandskap minskade teamet verbatim-återkallelse från nästan 100 procent till 3,4 procent. Logiska resonemangsuppgifter, inklusive booleska utvärderingar, if-then-regler, objektsspårning, BoolQ ja/nej-frågor, Winogrande sunt förnufts推理 och OpenBookQA vetenskapligt resonemang, behöll 95 till 106 procent av basprestationen.

Aritmetiska operationer delade dock vägar med memorering och sjönk till 66 procents noggrannhet efter borttagning. Forskare noterar att modeller behandlar fakta som ”2+2=4” som memoriserade objekt snarare än beräknad logik, liknande en elev som förlitar sig på multiplikationstabeller utan att förstå multiplikation. Vanliga fakta som länders huvudstäder förblev stabila, men sällsynta som företags-VD:ar sjönk 78 procent.

Testat på OLMo-1B och anpassade Vision Transformers tränade på felmärkta ImageNet-data återställde metoden 66,5 procents noggrannhet på felmärkta bilder genom att ta bort memorering. Den överträffade tidigare tekniker som BalancedSubnet och uppnådde 16,1 procents memorering på osedda citat jämfört med 60 procent.

Även om det är lovande för att ta bort upphovsrättsskyddat eller skadligt innehåll utan att skada resonemanget, undertrycker tillvägagångssättet snarare än raderar information, som kan reaktiveras med ytterligare träning. Teamet varnar för att matematikens sårbarhet kan bero på delade kretsar, och vissa komplexa förmågor kan efterlikna memorering.

Denna webbplats använder cookies

Vi använder cookies för analys för att förbättra vår webbplats. Läs vår integritetspolicy för mer information.
Avböj