AI企業Runwayは、ビデオ生成を超えてロボティクスやアバターなどの分野に拡大するよう設計された初期のワールドモデルセットGWM-1を公開した。Gen-4.5テキスト-to-ビデオ・モデルを基盤とし、これら3つの専門的な自己回帰モデルはリアルタイムシミュレーション、合成データ作成、自然な人間らしいインタラクションを可能にする。この発売は、テックジャイアントが支配する競争の激しい分野へのRunwayの進出を強調している。
ビデオ生成ツールで知られるRunwayは、Gen-4.5基盤からドメイン特化データで後訓練されたGWM-1を3つのモデルとして導入した。この動きは、クリエイティブ産業からより広範なAIアプリケーションへの同社の拡大を示している。
最初にGWM Worldsは、リアルタイムのユーザー入力がフレーム生成に影響を与えるデジタル環境の探索インターフェースを提供する。ユーザーはワールド要素、外観、物理法則、カメラ移動や環境変化などのアクションを指定でき、長大なシーケンスで一貫性を維持する。潜在的な用途にはゲーム開発のプレビジュアライゼーション、VRセットアップ、歴史サイトの教育シミュレーションが含まれる。また、ロボティクスを含むAIエージェントの訓練もサポートする。
GWM Roboticsは、ロボティクスデータセットを強化するための合成訓練データを生成することに焦点を当て、新規オブジェクト、タスク指示、環境変動を組み込む。これにより、変動する天候などの厳しい現実世界条件をシミュレートし、物理試験前の仮想環境での安全でコスト効果の高いポリシーテストが可能になる。RunwayはロボティクスAPI向けにリクエストベースのPython SDKを提供する。
GWM Avatarsはビデオと音声生成を統合し、話す・聞く際に自然に動き感情を表現するアバターを作成し、品質低下なしに長い会話を維持する。近日中にRunwayのウェブアプリとAPIに統合される。
ドメイン横断的なより統一されたモデルを目指しつつ、Runwayの現行バージョンは別々だ。CEOのCristóbal ValenzuelaはXでGWM-1を「ユニバーサルシミュレーションへの大きな一歩」と表現した。同社はGoogleやNvidiaなどの混雑した分野に参入し、映画・ゲームに加えロボティクス、物理学、ライフサイエンスをターゲットとする。
さらに、RunwayはGen-4.5のアップデートを公開し、ネイティブオーディオ、オーディオ編集、マルチショットビデオ機能を備え、将来のAI訓練・推論をサポートするNvidia GB300 NVL72ラック向けにCoreWeaveとの提携を発表した。