L'entreprise d'IA Runway a dévoilé GWM-1, son ensemble initial de modèles du monde conçus pour s'étendre au-delà de la génération vidéo vers des domaines comme la robotique et les avatars. Construits sur le modèle texte-vidéo Gen-4.5, ces trois modèles d'autoregression spécialisés permettent des simulations en temps réel, la création de données synthétiques et des interactions naturelles similaires à l'humain. Le lancement met en lumière la poussée de Runway dans un domaine compétitif dominé par des géants technologiques.
Runway, connue pour ses outils de génération vidéo, a introduit GWM-1 comme un trio de modèles post-entraînés sur des données spécifiques à un domaine à partir de sa base Gen-4.5. Ce mouvement signale l'expansion de l'entreprise des industries créatives vers des applications IA plus larges.
Le premier, GWM Worlds, fournit une interface pour explorer des environnements numériques avec des entrées utilisateur en temps réel influençant la génération d'images. Les utilisateurs peuvent spécifier des éléments du monde, des apparences, des règles de physique et des actions telles que des mouvements de caméra ou des changements environnementaux, en maintenant la cohérence sur des séquences étendues. Les usages potentiels incluent la prévisualisation dans le développement de jeux, les configurations de réalité virtuelle et les simulations éducatives de sites historiques. Il prend également en charge l'entraînement d'agents IA, y compris pour la robotique.
GWM Robotics se concentre sur la production de données d'entraînement synthétiques pour améliorer les ensembles de données robotiques, en intégrant des objets nouveaux, des instructions de tâches et des variations environnementales. Cela aide à simuler des conditions réelles difficiles comme des conditions météorologiques variables et permet des tests de politiques plus sûrs et rentables dans des environnements virtuels avant des essais physiques. Runway propose un SDK Python pour son API robotique sur une base par requête.
GWM Avatars intègre la génération vidéo et vocale pour créer des avatars qui bougent et expriment des émotions naturellement pendant la parole et l'écoute, soutenant de longues conversations sans perte de qualité. Il sera bientôt intégré à l'application web et à l'API de Runway.
Bien qu'aspirant à des modèles plus unifiés entre domaines, les versions actuelles de Runway sont distinctes. Le PDG Cristóbal Valenzuela a décrit GWM-1 sur X comme « une étape majeure vers la simulation universelle ». L'entreprise entre dans un espace encombré avec des acteurs comme Google et Nvidia, ciblant la robotique, la physique et les sciences de la vie aux côtés du cinéma et des jeux.
De plus, Runway a révélé des mises à jour de Gen-4.5 avec audio natif, édition audio et capacités vidéo multi-plan, plus un partenariat avec CoreWeave pour les racks Nvidia GB300 NVL72 afin de soutenir l'entraînement et l'inférence IA futurs.