Un nouveau modèle des linguistes Richard Futrell et Michael Hahn suggère que de nombreuses caractéristiques emblématiques du langage humain — telles que les mots familiers, l’ordre prévisible et le sens construit étape par étape — reflètent des contraintes sur le traitement séquentiel de l’information plutôt qu’une quête de compression maximale des données. Le travail a été publié dans Nature Human Behaviour.
Le langage humain est remarquablement riche et complexe. D’un point de vue de la théorie de l’information, les mêmes idées pourraient, en principe, être transmises dans des chaînes bien plus compactes — à l’image de la façon dont les ordinateurs représentent l’information à l’aide de chiffres binaires. nnMichael Hahn, linguiste à l’université de Sarre à Sarrebruck, en Allemagne, et Richard Futrell de l’université de Californie à Irvine, se sont attelés à expliquer pourquoi la parole quotidienne ne ressemble pas à un code numérique fortement compressé. Dans un article publié dans Nature Human Behaviour en novembre 2025, les chercheurs présentent un modèle dans lequel une structure « proche du langage naturel » émerge lorsque la communication est limitée par des contraintes sur la prédiction séquentielle — la quantité d’information devant être conservée de ce qui a déjà été entendu pour anticiper ce qui suit. nnDans ce cadre, le langage tire profit de schémas faciles à traiter par les humains comme un flux. Un résumé de ScienceDaily du travail, citant des documents de l’université d’Osaka, utilise des exemples pour illustrer l’idée : un mot inventé tel que « gol » pour un concept hybride (moitié chat et moitié chien) serait difficile à comprendre car il ne se mappe pas clairement sur l’expérience partagée, et un mélange brouillé comme « gadcot » est tout aussi ardu à interpréter. À l’opposé, « chat et chien » est immédiatement signifiant. nnLes chercheurs soulignent aussi l’ordre des mots comme un signal aidant les auditeurs à réduire l’incertitude en temps réel. Le communiqué de ScienceDaily met en avant la locution nominale allemande « Die fünf grünen Autos » (« les cinq voitures vertes ») comme exemple de la manière dont le sens peut être construit de façon incrémentale alors que chaque mot resserre l’ensemble des interprétations plausibles. Réorganiser ces mots — par exemple, « Grünen fünf die Autos » — perturbe cette prévisibilité et rend la compréhension plus ardue. nnAu-delà d’expliquer pourquoi le langage n’est pas « maximalement compressé », la discussion de l’article relie les résultats à l’apprentissage automatique. Futrell et Hahn soutiennent que le langage naturel est structuré de sorte à rendre la prédiction du jeton suivant relativement plus facile sous contraintes cognitives, un point qu’ils jugent pertinent pour les grands modèles de langage modernes. nn