A Physical Intelligence, startup de São Francisco fundada em 2024, está aprimorando sistemas de controle de robôs que aprendem múltiplas tarefas usando modelos de visão-linguagem-ação derivados de grandes modelos de linguagem. A empresa demonstrou robôs executando atividades variadas, como preparar café, dobrar roupas e cozinhar batata-doce com base em instruções verbais.
Em um ambiente de depósito, os robôs aprenderam a descascar vegetais, limpar cozinhas e manusear itens em cenários domésticos simulados que são renovados semanalmente. Um modelo recente chamado π0.7 operou com sucesso uma fritadeira elétrica pela primeira vez após receber orientações passo a passo.
Sergey Levine, um dos fundadores e professor da Universidade da Califórnia, Berkeley, observou que fontes de dados diversas ajudam os sistemas de IA a melhorar, em vez de complicar o aprendizado. A empresa também está testando robôs em casas reais para lidar com a variabilidade do mundo real.
Ingmar Posner, da Universidade de Oxford, descreveu a abordagem como uma tradução empolgante das capacidades dos modelos de linguagem, mas alertou que a implementação em larga escala no mundo real ainda está distante devido às necessidades de dados e às interações imprevisíveis dos usuários.