新しい研究によると、人々が話される物語を聞く際、主要な言語領域での神経活動は時間とともに展開し、大規模言語モデル内の層ごとの計算を反映する。てんかん患者の30分間のポッドキャスト中の皮質電図記録を分析した研究者らは、脳で意味がどのように構築されるかについての競合する理論を他の科学者がテストできるように、オープンデータセットも公開した。
科学者らは、脳の話された言語の処理が、現代の大規模言語モデルの層状操作に似た順序で展開するという証拠を報告した。 この研究は、2025年11月26日にNature Communicationsに掲載され、ヘブライ大学エルサレムのAriel Goldstein博士が主導し、Google ResearchのMariano Schain博士、プリンストン大学のUri Hasson教授とEric Ham氏らが協力した。 ## 聴取実験と神経記録 チームは、9人のてんかん患者が30分間のオーディオポッドキャスト「Monkey in the Middle」(NPR、2017)を聴取中に得られた皮質電図(ECoG)記録を分析した。研究者らは、物語の各単語に対する神経応答を、GPT2-XLモデルとLlama 2の複数の隠れ層から抽出した文脈埋め込みを使用してモデル化した。 彼らは、腹側言語処理経路に沿ったいくつかの領域に焦点を当て、上側頭回、下前頭回(ブローカ領域を含む)、側頭極の領域を含む。 ## 意味の層状時間経過 研究では、脳の応答がモデルの内部表現と時間順序のパターンで一致したと報告されている:初期の神経信号はモデルの初期層と強く一致し、後期の神経活動はより広い文脈を統合する深い層とより密接に一致した。この関連はブローカ領域などの高次言語領域で特に強いと記述された。 「最も驚いたのは、脳の意味の時間的展開が大規模言語モデル内の変換のシーケンスとどれほど密接に一致しているかだった」とゴールドスタイン氏は、ヘブライ大学エルサレムが公開した要約によると述べた。 ## 示唆とデータ公開 これらの知見は、言語理解の厳密な規則ベースの説明に対する挑戦として提示され、文脈に敏感な統計的表現が、音素や形態素などの伝統的な言語単位よりもリアルタイムの神経活動をより効果的に説明する可能性を示唆している。 研究者らはまた、言語神経科学のさらなる研究を支援するための公開データセットを公開し、神経記録を言語特徴と整合させたものを含む。 Nature Communicationsの報告とは別に、Scientific Data誌の関連データ記述では、9人の参加者から1330個の電極を使用した「Podcast」ECoGデータセットが同じ30分間の刺激を聴取し、音声情報から大規模言語モデル埋め込みまでの抽出特徴と分析チュートリアルを記述している。