تعمل شركة "فيزيكال إنتليجنس" (Physical Intelligence)، وهي شركة ناشئة تأسست في سان فرانسيسكو عام 2024، على تطوير أنظمة تحكم روبوتية تتعلم مهام متعددة باستخدام نماذج الرؤية واللغة والعمل المشتقة من نماذج اللغات الكبيرة. وقد أظهرت الشركة روبوتات تنفذ أنشطة متنوعة مثل تحضير القهوة، وطي الملابس، وطهي البطاطا الحلوة بناءً على تعليمات شفهية.
في بيئة المستودعات، تعلمت الروبوتات تقشير الخضروات، وتنظيف المطابخ، والتعامل مع الأغراض داخل بيئات منزلية محاكاة يتم تجديدها أسبوعياً. وقد نجح نموذج حديث يسمى π0.7 في تشغيل مقلاة هوائية لأول مرة بعد تلقيه توجيهات خطوة بخطوة. أشار سيرجي ليفين، أحد مؤسسي الشركة والأستاذ في جامعة كاليفورنيا ببيركلي، إلى أن مصادر البيانات المتنوعة تساعد أنظمة الذكاء الاصطناعي على التحسن بدلاً من تعقيد عملية التعلم. كما تقوم الشركة باختبار الروبوتات في منازل فعلية للتعامل مع التباين في العالم الحقيقي. ووصف إنجمار بوسنر من جامعة أكسفورد هذا النهج بأنه ترجمة مثيرة لقدرات النماذج اللغوية، لكنه حذر من أن الانتشار الواسع النطاق في العالم الحقيقي لا يزال بعيد المنال بسبب متطلبات البيانات والتفاعلات غير المتوقعة للمستخدمين.