Une nouvelle étude rapporte que, lorsque les gens écoutent une histoire parlée, l'activité neuronale dans les régions clés du langage se déploie au fil du temps d'une manière qui reflète les calculs couche par couche à l'intérieur des grands modèles de langage. Les chercheurs, qui ont analysé des enregistrements d'électrocorticographie de patients épileptiques pendant un podcast de 30 minutes, ont également publié un ensemble de données ouvert destiné à aider d'autres scientifiques à tester des théories concurrentes sur la façon dont le sens est construit dans le cerveau.
Les scientifiques ont rapporté des preuves que le traitement cérébral du langage parlé se déploie dans une séquence qui ressemble aux opérations par couches des grands modèles de langage modernes. La recherche, publiée dans Nature Communications le 26 novembre 2025, a été menée par le Dr Ariel Goldstein de l'Université hébraïque de Jérusalem, avec des collaborateurs incluant le Dr Mariano Schain de Google Research et le Prof. Uri Hasson et Eric Ham de l'Université de Princeton. ## Expérience d'écoute et enregistrements neuronaux L'équipe a analysé des enregistrements d'électrocorticographie (ECoG) de neuf patients épileptiques alors qu'ils écoutaient un podcast audio de 30 minutes, « Monkey in the Middle » (NPR, 2017). Les chercheurs ont modélisé les réponses neuronales à chaque mot de l'histoire en utilisant des embeddings contextuels tirés de multiples couches cachées du modèle GPT2-XL et de Llama 2. Ils se sont concentrés sur plusieurs régions le long d'une voie de traitement du langage ventrale, y compris des zones dans le gyrus temporal supérieur, le gyrus frontal inférieur (qui inclut l'aire de Broca) et le pôle temporal. ## Un déroulement temporel en couches du sens L'étude rapporte que les réponses cérébrales correspondaient aux représentations internes des modèles dans un schéma ordonné par le temps : les signaux neuronaux précoces s'alignaient plus fortement avec les couches antérieures du modèle, tandis que l'activité neuronale ultérieure correspondait plus étroitement aux couches plus profondes qui intègrent un contexte plus large. L'association a été décrite comme particulièrement forte dans les régions de langage de niveau supérieur telles que l'aire de Broca. « Ce qui nous a le plus surpris, c'est à quel point le déroulement temporel du sens dans le cerveau correspond étroitement à la séquence de transformations à l'intérieur des grands modèles de langage », a déclaré Goldstein, selon un résumé publié par l'Université hébraïque de Jérusalem. ## Implications et publication de données Les résultats sont présentés comme un défi aux comptes strictement basés sur des règles de compréhension du langage, suggérant plutôt que des représentations statistiques sensibles au contexte peuvent expliquer l'activité neuronale en temps réel plus efficacement que les unités linguistiques traditionnelles telles que les phonèmes et les morphèmes. Les chercheurs ont également publié un ensemble de données public destiné à soutenir des travaux supplémentaires en neurosciences du langage, y compris des enregistrements neuronaux alignés sur des caractéristiques linguistiques. Séparément du rapport de Nature Communications, un descripteur de données connexe dans la revue Scientific Data décrit un ensemble de données ECoG « Podcast » de neuf participants avec 1 330 électrodes écoutant le même stimulus de 30 minutes, ainsi que des caractéristiques extraites allant de l'information phonétique aux embeddings de grands modèles de langage et des tutoriels d'analyse.