Physical Intelligence, sebuah startup asal San Francisco yang didirikan pada tahun 2024, sedang mengembangkan sistem kendali robot yang mampu mempelajari berbagai tugas menggunakan model visi-bahasa-aksi yang diturunkan dari model bahasa besar. Perusahaan tersebut telah mendemonstrasikan robot yang melakukan berbagai aktivitas seperti membuat kopi, melipat pakaian, dan memasak ubi jalar berdasarkan instruksi lisan.
Di dalam lingkungan gudang, robot-robot tersebut telah belajar mengupas sayuran, membersihkan dapur, dan menangani barang-barang di lingkungan rumah simulasi yang direnovasi setiap minggu. Model terbaru bernama π0.7 berhasil mengoperasikan alat penggoreng udara (air fryer) untuk pertama kalinya setelah menerima panduan langkah demi langkah. Sergey Levine, salah satu pendiri dan profesor di University of California, Berkeley, mencatat bahwa beragam sumber data justru membantu sistem AI untuk meningkat, bukan mempersulit proses pembelajaran. Perusahaan tersebut juga tengah menguji coba robot di rumah-rumah sungguhan untuk menangani variabilitas dunia nyata. Ingmar Posner dari University of Oxford menggambarkan pendekatan ini sebagai terjemahan yang menarik dari kemampuan model bahasa, namun ia mengingatkan bahwa penerapan dalam skala besar di dunia nyata masih jauh dari jangkauan karena kebutuhan data dan interaksi pengguna yang tidak dapat diprediksi.