Physical Intelligence, una startup de San Francisco fundada en 2024, está avanzando en sistemas de control robótico que aprenden múltiples tareas mediante modelos de visión-lenguaje-acción derivados de modelos de lenguaje extenso. La empresa ha demostrado robots que realizan actividades variadas como preparar café, doblar ropa y cocinar batatas basándose en instrucciones verbales.
En un entorno de almacén, los robots han aprendido a pelar verduras, limpiar cocinas y manipular objetos en entornos domésticos simulados que se renuevan semanalmente. Un modelo reciente llamado π0.7 operó con éxito una freidora de aire por primera vez tras recibir orientación paso a paso. Sergey Levine, fundador y profesor de la Universidad de California en Berkeley, señaló que diversas fuentes de datos ayudan a que los sistemas de IA mejoren en lugar de complicar el aprendizaje. La empresa también está probando robots en hogares reales para gestionar la variabilidad del mundo real. Ingmar Posner, de la Universidad de Oxford, describió el enfoque como una emocionante traslación de las capacidades de los modelos de lenguaje, pero advirtió que el despliegue a gran escala en el mundo real sigue siendo lejano debido a los requisitos de datos y a las interacciones impredecibles con los usuarios.