言語学者のリチャード・フートレルとマイケル・ハーンによる新しいモデルは、人間の言語の多くの特徴的な要素——馴染みのある単語、予測可能な順序、段階的に構築される意味など——が、逐次情報処理の制約を反映したものであり、データ最大圧縮の衝動によるものではないことを示唆している。この研究はNature Human Behaviourに掲載された。
人間の言語は驚くほど豊かで複雑である。情報理論の観点から、同じアイデアは原理的に、はるかにコンパクトな文字列で伝えられる可能性がある——コンピュータが2進数字を使って情報を表現するのと同様に。 nnドイツのザールブリュッケンにあるザールランド大学の言語学者マイケル・ハーン氏と、カリフォルニア大学アーバイン校のリチャード・フートレル氏らは、日常会話が厳密に圧縮されたデジタルコードに似ていない理由を明らかにしようとした。2025年11月にNature Human Behaviourに掲載された論文で、研究者らは、「自然言語らしい」構造が、逐次予測の限界——すでに聞こえた内容から次に来るものを予測するためにどれだけの情報を前方に運ぶ必要があるか——によって生じるというモデルを提示した。 nnその枠組みでは、言語は人々がストリームとして処理しやすいパターンから利益を得る。ScienceDailyの要約では、大阪大学の資料を引用し、例を挙げてこの考えを説明している:猫半分犬半分のハイブリッド概念のための造語「gol」は共有経験にきれいにマッピングされないため理解しにくく、「gadcot」のような乱雑なブレンドも同様に解釈しにくい。一方、「cat and dog」は即座に意味が通じる。 nn研究者らはまた、単語の順序が聞き手にリアルタイムで不確実性を減らすシグナルであると指摘している。ScienceDailyのリリースでは、ドイツ語の名詞句「Die fünf grünen Autos」(「緑色の車5台」)を例に挙げ、各単語が解釈の可能性を絞り込むことで意味が段階的に構築されることを示している。これらの単語を「Grünen fünf die Autos」のように並べ替えると、その予測可能性が乱れ、理解が難しくなる。 nn言語が「最大限に圧縮されていない」理由を説明するだけでなく、論文の議論は機械学習にも結びつけている。フートレル氏とハーン氏は、自然言語が認知制約下で次のトークン予測を比較的容易にするよう構造化されていると主張し、これは現代の大規模言語モデルに関連すると述べている。 nn