Experter förutspår 2026 som det avgörande året för världmodeller, AI-system utformade för att förstå den fysiska världen djupare än stora språkmodeller. Dessa modeller syftar till att förankra AI i verkligheten och möjliggöra framsteg inom robotik och autonoma fordon. Branschledare som Yann LeCun och Fei-Fei Li framhåller deras potential att revolutionera rumslig intelligens.
AI-landskapet skiftar från textgenererande stora språkmodeller, som de som driver ChatGPT och Gemini, mot världmodeller som tolkar den fysiska miljön. Dessa system översätter element som fysikens lagar, objektdetektering och rörelse till digitala format som AI kan bearbeta, och bildar grunden för fysisk AI – teknik som inte bara förstår utan också agerar i den verkliga världen. Till skillnad från interaktiva chatbots kommer världmodeller att ligga till grund för applikationer inklusive realistisk vide generering, kirurgiska robotar och förbättrad autonom körning. Deras utveckling signalerar en rörelse bort från AI:s tillfälliga hallucinationer mot mer pålitliga, verklighetsbaserade utdata. Framstående personer driver denna övergång. Yann LeCun, en nyckel-forskare inom AI, lämnade nyligen ledningen för Metas AI-initiativ för att ansluta sig till en startup dedikerad till världmodeller. Fei-Fei Li, ofta kallad AI:s gudmor, betonade i ett blogginlägg i november vikten av rumslig intelligens: «Rumslig intelligens kommer att transformera hur vi skapar och interagerar med verkliga och virtuella världar – revolutionerande berättande, kreativitet, robotik, vetenskaplig upptäckt och mer.» Nvidia:s VD Jensen Huang tog upp världmodeller i sitt CES 2026-tal, och betonade träningdatans roll: «Att bygga en AI-modell som är grundad i våra fysiklagar och sanningen på marken börjar med datan som används för träning.» Nvidias Cosmos-plattform exemplifierar detta genom att använda fordonssensorer för att kartlägga omgivningen i realtid och simulera scenarier som olyckor för att förbättra säkerheten. Sådana modeller förlitar sig på enorma datamängder, inklusive mänskligt genererat innehåll och simuleringar, även om de senare hjälper till att hantera juridiska bekymmer kring dataanvändning och sällsynta edge cases genom syntetisk data. Detta fokus på världmodeller indikerar att AI-industrin prioriterar integration med den fysiska världen framför att utöka virtuella textfunktioner.