Les experts prévoient 2026 comme l’année charnière pour les modèles du monde, systèmes d’IA conçus pour appréhender le monde physique plus profondément que les grands modèles de langage. Ces modèles visent à ancrer l’IA dans la réalité, favorisant des avancées en robotique et véhicules autonomes. Des leaders de l’industrie comme Yann LeCun et Fei-Fei Li soulignent leur potentiel à révolutionner l’intelligence spatiale.
Le paysage de l’IA passe des grands modèles de langage générateurs de texte, comme ceux qui propulsent ChatGPT et Gemini, vers des modèles du monde qui interprètent l’environnement physique. Ces systèmes traduisent des éléments comme les lois de la physique, la détection d’objets et le mouvement en formats numériques que l’IA peut traiter, formant la base de l’IA physique — une technologie capable non seulement de comprendre mais d’agir dans le monde réel. Contrairement aux chatbots interactifs, les modèles du monde soutiendront des applications incluant la génération vidéo réaliste, des robots chirurgicaux et une conduite autonome améliorée. Leur développement marque un éloignement des hallucinations occasionnelles de l’IA vers des sorties plus fiables et ancrées dans la réalité. Des figures éminentes pilotent cette transition. Yann LeCun, chercheur clé en IA, a récemment quitté la direction des initiatives IA de Meta pour rejoindre une startup dédiée aux modèles du monde. Fei-Fei Li, souvent appelée la marraine de l’IA, a insisté dans un billet de blog de novembre sur l’importance de l’intelligence spatiale : « L’intelligence spatiale transformera la façon dont nous créons et interagissons avec les mondes réels et virtuels — révolutionnant la narration, la créativité, la robotique, la découverte scientifique et au-delà. » Le PDG de Nvidia, Jensen Huang, a abordé les modèles du monde dans son keynote au CES 2026, insistant sur le rôle des données d’entraînement : « Construire un modèle d’IA ancré dans nos lois de la physique et la vérité du terrain commence par les données utilisées pour l’entraînement. » La plateforme Cosmos de Nvidia illustre cela, utilisant des capteurs de véhicules pour cartographier les environs en temps réel et simuler des scénarios comme des accidents afin d’améliorer la sécurité. Ces modèles reposent sur d’immenses ensembles de données, incluant du contenu généré par l’humain et des simulations, ces dernières aidant à résoudre les préoccupations légales sur l’utilisation des données et les cas limites rares via des données synthétiques. Cette focalisation sur les modèles du monde montre que l’industrie de l’IA priorise l’intégration au monde physique plutôt que l’expansion des capacités textuelles virtuelles.