اكتشف باحثون في شركة الذكاء الاصطناعي الناشئة Goodfire.ai أن نماذج اللغة تخزن التلقين والاستدلال المنطقي في مسارات عصبية منفصلة. ورقتهم البحثية المسبقة الطباعة، الصادرة في أواخر أكتوبر، تظهر أن إزالة دوائر التلقين تقضي على 97 في المئة من الاستذكار الحرفي مع الحفاظ على معظم قدرات الاستدلال تقريباً. بشكل مفاجئ، تعتمد المهام الحسابية على مسارات التلقين، مما يفسر صعوبات الذكاء الاصطناعي في الرياضيات.
في ورقة بحثية مسبقة الطباعة صدرت في أواخر أكتوبر، حلل باحثون من Goodfire.ai الشبكات العصبية لتمييز التلقين —ترديد بيانات التدريب الدقيقة مثل الاقتباسات— عن الاستدلال، مثل حل المشكلات بمبادئ عامة. فحصوا نماذج مثل OLMo-7B من Allen Institute for AI، واكتشفوا فصلًا واضحًا: في الطبقة 22، انفعل الـ50 في المئة السفلي من مكونات الوزن بنسبة 23 في المئة أعلى على البيانات المُلقنة، بينما الـ10 في المئة العلوي فعل ذلك بنسبة 26 في المئة أعلى على النص العام.
من خلال إزالة هذه المسارات التلقينية جراحيًا باستخدام تقنية تُدعى K-FAC على مشهد الخسارة للنموذج، خفض الفريق الاستذكار الحرفي من نحو 100 في المئة إلى 3.4 في المئة. احتفظت المهام الاستدلالية المنطقية، بما في ذلك التقييمات المنطقية البوليانية، وقواعد if-then، وتتبع الكائنات، وأسئلة BoolQ نعم/لا، واستدلال Winogrande للمعرفة العامة، واستدلال OpenBookQA العلمي، بنسبة 95 إلى 106 في المئة من الأداء الأساسي.
ومع ذلك، شاركت العمليات الحسابية مسارات مع التلقين، منخفضة إلى 66 في المئة دقة بعد الإزالة. يلاحظ الباحثون أن النماذج تعامل الحقائق مثل «2+2=4» كعناصر مُلقنة بدلاً من المنطق المحسوب، مشابهًا لطالب يعتمد على جداول المرة دون فهم الضرب. بقيت الحقائق الشائعة مثل عواصم الدول مستقرة، لكن النادرة مثل الرؤساء التنفيذيين للشركات انخفضت 78 في المئة.
اختبرت على OLMo-1B ومحولات الرؤية المخصصة المدربة على بيانات ImageNet المُصنفة خطأً، أعاد الطريقة 66.5 في المئة دقة على الصور المُصنفة خطأً من خلال إزالة التلقين. تفوقت على التقنيات السابقة مثل BalancedSubnet، محققة 16.1 في المئة تلقين على اقتباسات غير مرئية مقابل 60 في المئة.
رغم أنها واعدة لإزالة المحتوى المحمي بحقوق النشر أو الضار دون الإضرار بالاستدلال، إلا أن النهج يقمع بدلاً من محو المعلومات، والتي يمكن إعادة تنشيطها بتدريب إضافي. يحذر الفريق من أن ضعف الرياضيات قد ينبع من دوائر مشتركة، وبعض القدرات المعقدة قد تحاكي التلقين.