Um novo estudo relata que, à medida que as pessoas escutam uma história falada, a atividade neural em regiões chave de linguagem se desenrola ao longo do tempo de uma forma que espelha os cálculos camada por camada dentro de grandes modelos de linguagem. Os pesquisadores, que analisaram gravações de electrocorticografia de pacientes epilépticos durante um podcast de 30 minutos, também lançaram um conjunto de dados aberto destinado a ajudar outros cientistas a testar teorias concorrentes sobre como o significado é construído no cérebro.
Cientistas relataram evidências de que o processamento do cérebro da linguagem falada se desenrola em uma sequência que se assemelha às operações em camadas dos modernos grandes modelos de linguagem. A pesquisa, publicada em Nature Communications em 26 de novembro de 2025, foi liderada pelo Dr. Ariel Goldstein da Hebrew University of Jerusalem, com colaboradores incluindo o Dr. Mariano Schain do Google Research e o Prof. Uri Hasson e Eric Ham da Princeton University. ## Experimento de escuta e gravações neurais A equipe analisou gravações de electrocorticografia (ECoG) de nove pacientes epilépticos enquanto escutavam um podcast de áudio de 30 minutos, “Monkey in the Middle” (NPR, 2017). Os pesquisadores modelaram respostas neurais a cada palavra na história usando embeddings contextuais extraídos de múltiplas camadas ocultas do modelo GPT2-XL e do Llama 2. Eles se concentraram em várias regiões ao longo de uma via de processamento de linguagem ventral, incluindo áreas no giro temporal superior, no giro frontal inferior (que inclui a área de Broca) e no polo temporal. ## Um curso temporal em camadas do significado O estudo relata que as respostas cerebrais corresponderam às representações internas dos modelos em um padrão ordenado pelo tempo: sinais neurais iniciais se alinharam mais fortemente com camadas iniciais do modelo, enquanto a atividade neural posterior correspondeu mais de perto a camadas mais profundas que integram contexto mais amplo. A associação foi descrita como particularmente forte em regiões de linguagem de nível superior, como a área de Broca. “O que mais nos surpreendeu foi quão de perto o desenrolar temporal do significado no cérebro corresponde à sequência de transformações dentro dos grandes modelos de linguagem”, disse Goldstein, de acordo com um resumo lançado pela Hebrew University of Jerusalem. ## Implicações e liberação de dados As descobertas são apresentadas como um desafio a contas estritamente baseadas em regras de compreensão da linguagem, sugerindo em vez disso que representações estatísticas sensíveis ao contexto podem explicar a atividade neural em tempo real de forma mais eficaz do que unidades linguísticas tradicionais como fonemas e morfemas. Os pesquisadores também lançaram um conjunto de dados público destinado a apoiar trabalhos adicionais em neurociência da linguagem, incluindo gravações neurais alinhadas com características linguísticas. Separado do relatório da Nature Communications, um descritor de dados relacionado no jornal Scientific Data descreve um conjunto de dados ECoG “Podcast” de nove participantes com 1.330 eletrodos escutando o mesmo estímulo de 30 minutos, juntamente com características extraídas que vão desde informações fonéticas até embeddings de grandes modelos de linguagem e tutoriais de análise.