Un nuevo estudio informa que, a medida que las personas escuchan una historia hablada, la actividad neural en regiones clave del lenguaje se desarrolla con el tiempo de una manera que refleja los cálculos capa por capa dentro de los modelos de lenguaje grandes. Los investigadores, que analizaron grabaciones de electrocorticografía de pacientes epilépticos durante un podcast de 30 minutos, también publicaron un conjunto de datos abierto destinado a ayudar a otros científicos a probar teorías competidoras sobre cómo se construye el significado en el cerebro.
Los científicos han informado de evidencia de que el procesamiento del lenguaje hablado por el cerebro se desarrolla en una secuencia que se asemeja a las operaciones por capas de los modelos de lenguaje grandes modernos. El estudio, publicado en Nature Communications el 26 de noviembre de 2025, fue dirigido por el Dr. Ariel Goldstein de la Universidad Hebrea de Jerusalén, con colaboradores que incluyen al Dr. Mariano Schain de Google Research y al Prof. Uri Hasson y Eric Ham de la Universidad de Princeton. ## Experimento de escucha y grabaciones neurales El equipo analizó grabaciones de electrocorticografía (ECoG) de nueve pacientes epilépticos mientras escuchaban un podcast de audio de 30 minutos, «Monkey in the Middle» (NPR, 2017). Los investigadores modelaron las respuestas neurales a cada palabra de la historia utilizando incrustaciones contextuales extraídas de múltiples capas ocultas del modelo GPT2-XL y de Llama 2. Se centraron en varias regiones a lo largo de una vía de procesamiento del lenguaje ventral, incluyendo áreas en el giro temporal superior, el giro frontal inferior (que incluye el área de Broca) y el polo temporal. ## Un curso temporal por capas del significado El estudio informa que las respuestas cerebrales coincidían con las representaciones internas de los modelos en un patrón ordenado por tiempo: las señales neurales tempranas se alineaban más fuertemente con las capas anteriores del modelo, mientras que la actividad neural posterior correspondía más estrechamente a capas más profundas que integran un contexto más amplio. La asociación se describió como particularmente fuerte en regiones de lenguaje de nivel superior como el área de Broca. «Lo que más nos sorprendió fue cuán estrechamente el desarrollo temporal del significado en el cerebro coincide con la secuencia de transformaciones dentro de los modelos de lenguaje grandes», dijo Goldstein, según un resumen publicado por la Universidad Hebrea de Jerusalén. ## Implicaciones y publicación de datos Los hallazgos se presentan como un desafío a las explicaciones estrictamente basadas en reglas de la comprensión del lenguaje, sugiriendo en su lugar que representaciones estadísticas sensibles al contexto pueden explicar la actividad neural en tiempo real de manera más efectiva que las unidades lingüísticas tradicionales como fonemas y morfemas. Los investigadores también publicaron un conjunto de datos público destinado a apoyar trabajos adicionales en neurociencia del lenguaje, incluyendo grabaciones neurales alineadas con características lingüísticas. Por separado del informe de Nature Communications, un descriptor de datos relacionado en la revista Scientific Data describe un conjunto de datos ECoG «Podcast» de nueve participantes con 1.330 electrodos escuchando el mismo estímulo de 30 minutos, junto con características extraídas que van desde información fonética hasta incrustaciones de modelos de lenguaje grandes y tutoriales para el análisis.