Um novo modelo dos linguistas Richard Futrell e Michael Hahn sugere que muitas características marcantes da linguagem humana — como palavras familiares, ordenação previsível e significado construído passo a passo — refletem restrições ao processamento sequencial de informação em vez de um impulso pela compressão máxima de dados. O trabalho foi publicado na Nature Human Behaviour.
A linguagem humana é notavelmente rica e intricada. Do ponto de vista da teoria da informação, as mesmas ideias poderiam, em princípio, ser transmitidas em strings muito mais compactas — semelhante a como os computadores representam informação usando dígitos binários. nnMichael Hahn, linguista na Universidade de Saarland em Saarbrücken, Alemanha, e Richard Futrell da Universidade da Califórnia, Irvine, partiram para abordar por que a fala cotidiana não se assemelha a um código digital fortemente comprimido. Num artigo publicado na Nature Human Behaviour em novembro de 2025, os investigadores apresentam um modelo em que a estrutura «parecida com linguagem natural» surge quando a comunicação é restringida por limites na previsão sequencial — quanta informação deve ser transportada para diante do que já foi ouvido para antecipar o que vem a seguir. nnNesse quadro, a linguagem beneficia-se de padrões fáceis de processar pelas pessoas como um fluxo. Um resumo da ScienceDaily do trabalho, citando materiais da Universidade de Osaka, usa exemplos para ilustrar a ideia: uma palavra inventada como “gol” para um conceito híbrido (metade gato e metade cão) seria difícil de entender porque não mapeia de forma limpa para a experiência partilhada, e uma mistura embaralhada como “gadcot” é igualmente difícil de interpretar. Pelo contraste, “gato e cão” é imediatamente significativo. nnOs investigadores também apontam a ordem das palavras como um sinal que ajuda os ouvintes a reduzir a incerteza em tempo real. O comunicado da ScienceDaily destaca a frase nominal alemã “Die fünf grünen Autos” (“os cinco carros verdes”) como exemplo de como o significado pode ser construído incrementalmente à medida que cada palavra estreita o conjunto de interpretações plausíveis. Reordenar essas palavras — por exemplo, “Grünen fünf die Autos” — perturba essa previsibilidade e torna a compreensão mais difícil. nnAlém de explicar por que a linguagem não é “maximamente comprimida”, a discussão do artigo liga os achados ao aprendizado de máquina. Futrell e Hahn argumentam que a linguagem natural está estruturada de modo a tornar a previsão do próximo token comparativamente mais fácil sob restrições cognitivas, um ponto que dizem ser relevante para os modernos grandes modelos de linguagem. nn