Studi memisahkan hafalan dari penalaran di model AI

Peneliti di startup AI Goodfire.ai menemukan bahwa model bahasa menyimpan hafalan dan penalaran logis di jalur saraf yang terpisah. Makalah pracetak mereka, dirilis akhir Oktober, menunjukkan bahwa menghapus sirkuit hafalan menghilangkan 97 persen ingatan verbatim sambil mempertahankan hampir semua kemampuan penalaran. Menariknya, tugas aritmatika bergantung pada jalur hafalan, menjelaskan kesulitan AI dengan matematika.

Dalam makalah pracetak yang dirilis akhir Oktober, peneliti dari Goodfire.ai menganalisis jaringan saraf untuk membedakan antara hafalan—mengulang data pelatihan yang tepat seperti kutipan—dan penalaran, seperti menyelesaikan masalah dengan prinsip umum. Mereka memeriksa model seperti OLMo-7B dari Allen Institute for AI, menemukan pemisahan yang bersih: pada lapisan 22, 50 persen bagian bawah komponen bobot diaktifkan 23 persen lebih tinggi pada data yang dihafal, sementara 10 persen teratas 26 persen lebih tinggi pada teks umum.

Dengan secara bedah menghapus jalur hafalan ini menggunakan teknik yang disebut K-FAC pada lanskap kerugian model, tim mengurangi ingatan verbatim dari hampir 100 persen menjadi 3,4 persen. Tugas penalaran logis, termasuk evaluasi Boolean, aturan if-then, pelacakan objek, pertanyaan ya/tidak BoolQ, inferensi akal sehat Winogrande, dan penalaran sains OpenBookQA, mempertahankan 95 hingga 106 persen dari kinerja dasar.

Operasi aritmatika, bagaimanapun, berbagi jalur dengan hafalan, turun menjadi 66 persen akurasi setelah penghapusan. Peneliti mencatat bahwa model memperlakukan fakta seperti “2+2=4” sebagai item yang dihafal daripada logika yang dihitung, mirip dengan siswa yang mengandalkan tabel kali tanpa memahami perkalian. Fakta umum seperti ibu kota negara tetap stabil, tetapi yang langka seperti CEO perusahaan turun 78 persen.

Diuji pada OLMo-1B dan Transformer Visi khusus yang dilatih pada data ImageNet yang salah beri label, metode ini memulihkan 66,5 persen akurasi pada gambar yang salah beri label dengan menghapus hafalan. Ia mengungguli teknik sebelumnya seperti BalancedSubnet, mencapai 16,1 persen hafalan pada kutipan yang tidak terlihat versus 60 persen.

Meskipun menjanjikan untuk menghapus konten berhak cipta atau berbahaya tanpa merusak penalaran, pendekatan ini menekan daripada menghapus informasi, yang dapat diaktifkan kembali dengan pelatihan lebih lanjut. Tim memperingatkan bahwa kerentanan matematika mungkin berasal dari sirkuit bersama, dan beberapa kemampuan kompleks bisa meniru hafalan.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak