研究、AIモデルで記憶と推論を分離

AIスタートアップGoodfire.aiの研究者らは、言語モデルが記憶と論理的推論を別々の神経経路に保存していることを発見した。10月末に公開されたプレプリント論文では、記憶回路を除去すると逐語的な想起の97%が消滅する一方で、ほぼすべての推論能力が保持されることが示された。驚くべきことに、算術タスクは記憶経路に依存しており、これがAIの数学的苦手意識を説明する。

10月末に公開されたプレプリント論文で、Goodfire.aiの研究者らは、神経ネットワークを分析し、記憶——引用などの正確な訓練データを暗唱すること——と推論——一般原則で問題を解決すること——を区別した。彼らはAllen Institute for AIのOLMo-7Bなどのモデルを調べ、明確な分離を発見した:22層目で、重みの下位50%のコンポーネントは記憶データで23%高く活性化し、上位10%は一般テキストで26%高く活性化した。

モデルの損失ランドスケープ上でK-FACと呼ばれる手法を使ってこれらの記憶経路を外科的に除去することで、チームは逐語的想起をほぼ100%から3.4%に低減した。論理的推論タスク——ブール評価、if-thenルール、オブジェクト追跡、BoolQのはい/いいえ質問、Winograndeの常識推論、OpenBookQAの科学推論——はベースライン性能の95〜106%を保持した。

しかし、算術演算は記憶と経路を共有し、除去後精度が66%に低下した。研究者らは、モデルが「2+2=4」などの事実を計算論理ではなく記憶項目として扱うと指摘し、これは掛け算を理解せずに九九に頼る生徒に似ている。国々の首都などの一般的事実は安定したが、企業CEOなどの珍しいものは78%低下した。

OLMo-1Bと誤ラベル付きImageNetデータで訓練されたカスタムVision Transformerでテストされ、この手法は記憶を除去することで誤ラベル画像の精度を66.5%回復させた。BalancedSubnetなどの先行手法を上回り、見えざる引用での記憶率を60%に対して16.1%に抑えた。

著作権付きや有害コンテンツを推論を損なわずに除去する点で有望だが、このアプローチは情報を消去ではなく抑制するもので、さらなる訓練で再活性化可能だ。チームは、数学の脆弱性が共有回路による可能性を警告し、一部の複雑な能力が記憶を模倣する可能性を指摘した。

このウェブサイトはCookieを使用します

サイトを改善するための分析にCookieを使用します。詳細については、プライバシーポリシーをお読みください。
拒否