2024年にサンフランシスコで設立されたスタートアップ企業Physical Intelligenceは、大規模言語モデルから派生した「視覚・言語・行動(vision-language-action)」モデルを活用し、複数のタスクを学習するロボット制御システムの開発を進めている。同社は、口頭の指示に基づいてコーヒーを淹れる、洗濯物をたたむ、サツマイモを調理するといった様々な作業を行うロボットを披露した。
倉庫内において、ロボットは毎週模様替えされる模擬的な家庭環境で、野菜の皮むきやキッチンの清掃、物の取り扱いを学習してきた。最新モデルの「π0.7」は、段階的な指示を受けた後、初めてノンフライヤーの操作に成功した。
創業者の一人でカリフォルニア大学バークレー校の教授を務めるセルゲイ・レビン氏は、多様なデータソースを活用することで、AIシステムは学習を複雑化させるどころか、むしろ精度が向上すると指摘した。同社はまた、現実世界の多様性に対応するため、実際の住宅環境でのロボットテストも行っている。
オックスフォード大学のイングマル・ポズナー氏は、このアプローチについて、言語モデルの機能をロボットに応用する刺激的な取り組みであると評価する一方、データ要件の厳しさや予測不可能なユーザーとの相互作用を理由に、大規模な実社会への展開にはまだ時間がかかるとの懸念を示した。