Expertos prevén 2026 como el año clave para los modelos del mundo, sistemas de IA diseñados para comprender el mundo físico más profundamente que los grandes modelos de lenguaje. Estos modelos buscan anclar la IA en la realidad, permitiendo avances en robótica y vehículos autónomos. Líderes de la industria como Yann LeCun y Fei-Fei Li destacan su potencial para revolucionar la inteligencia espacial.
El panorama de la IA está pasando de los grandes modelos de lenguaje generadores de texto, como los que impulsan ChatGPT y Gemini, hacia modelos del mundo que interpretan el entorno físico. Estos sistemas traducen elementos como las leyes de la física, la detección de objetos y el movimiento a formatos digitales que la IA puede procesar, formando la base para la IA física: tecnología capaz no solo de entender, sino de actuar en el mundo real. A diferencia de los chatbots interactivos, los modelos del mundo sustentarán aplicaciones como la generación de vídeo realista, robots quirúrgicos y conducción autónoma mejorada. Su desarrollo señala un alejamiento de las alucinaciones ocasionales de la IA hacia salidas más fiables y basadas en la realidad. Figuras prominentes están impulsando esta transición. Yann LeCun, un investigador clave en IA, recientemente dejó de liderar las iniciativas de IA de Meta para unirse a una startup dedicada a los modelos del mundo. Fei-Fei Li, a menudo llamada la madrina de la IA, enfatizó en una publicación de blog de noviembre la importancia de la inteligencia espacial: «La inteligencia espacial transformará cómo creamos e interactuamos con mundos reales y virtuales: revolucionando la narración, la creatividad, la robótica, el descubrimiento científico y más allá». El CEO de Nvidia, Jensen Huang, abordó los modelos del mundo en su keynote de CES 2026, destacando el papel de los datos de entrenamiento: «Construir un modelo de IA anclado en nuestras leyes de la física y la verdad del terreno comienza con los datos utilizados para el entrenamiento». La plataforma Cosmos de Nvidia ejemplifica esto, utilizando sensores de vehículos para mapear el entorno en tiempo real y simular escenarios como accidentes para mejorar la seguridad. Tales modelos dependen de vastos conjuntos de datos, incluyendo contenido generado por humanos y simulaciones, aunque estas últimas ayudan a abordar preocupaciones legales sobre el uso de datos y casos límite raros mediante datos sintéticos. Este enfoque en los modelos del mundo indica que la industria de la IA prioriza la integración con el mundo físico sobre la expansión de capacidades de texto virtual.