Physical Intelligence, une startup de San Francisco fondée en 2024, développe des systèmes de contrôle robotique capables d'apprendre de multiples tâches grâce à des modèles de vision-langage-action dérivés de modèles de langage étendus. L'entreprise a fait la démonstration de robots effectuant des activités variées telles que préparer du café, plier du linge et cuire des patates douces sur la base d'instructions verbales.
Dans un entrepôt, les robots ont appris à éplucher des légumes, nettoyer des cuisines et manipuler des objets dans des environnements domestiques simulés qui sont réaménagés chaque semaine. Un modèle récent baptisé π0.7 a réussi pour la première fois à faire fonctionner une friteuse à air après avoir reçu des instructions étape par étape.
Sergey Levine, cofondateur et professeur à l'Université de Californie à Berkeley, a noté que la diversité des sources de données aide les systèmes d'IA à s'améliorer plutôt qu'à complexifier l'apprentissage. L'entreprise teste également des robots dans de véritables foyers afin de gérer la variabilité du monde réel.
Ingmar Posner, de l'Université d'Oxford, a qualifié cette approche de traduction passionnante des capacités des modèles de langage, tout en prévenant que le déploiement à grande échelle dans le monde réel reste encore lointain en raison des besoins en données et des interactions imprévisibles des utilisateurs.