Le vice-président de l'IA de Tesla, Ashok Elluswamy, a publié une présentation de 30 minutes détaillant les progrès dans le logiciel Full Self-Driving (FSD), le développement de l'IA et les dernières innovations de l'équipe. Présentée via l'International Conference on Computer Vision (ICCV), elle met en lumière les vastes ressources de données de Tesla et les nouveaux outils de simulation. La conférence souligne les efforts pour l'expansion mondiale des robotaxis et l'autonomie totale de la flotte.
Dans la présentation, Elluswamy a mis l'accent sur l'avantage de données inégalé de Tesla, déclarant que la flotte de véhicules de l'entreprise génère '500 ans de données de conduite chaque jour'. Il l'a décrite comme un 'Niagara de données', comprenant des centaines d'années de conduite collective de la flotte, capturée via des déclencheurs de données intelligents pour des cas limites rares comme des intersections complexes et des comportements imprévisibles. Cette approche permet à Tesla d'extraire uniquement les données essentielles pour un entraînement de modèle efficace, abordant la 'malédiction de la dimensionalité' où huit caméras à haute fréquence d'images produisent des milliards de tokens par 30 secondes de contexte de conduite.
Malgré le système de réseau neuronal de bout en bout, Tesla maintient l'interprétabilité pour le débogage. Les ingénieurs peuvent inviter le modèle à produire des prédictions auxiliaires telles que l'occupation 3D, les limites de route, les objets, les panneaux et les feux de circulation, qui ne contrôlent pas le véhicule mais aident aux vérifications de sécurité. L'interrogation en langage naturel permet des questions comme pourquoi une décision particulière a été prise. De plus, Tesla a développé un système personnalisé de splatting gaussien ultra-rapide pour reconstruire des scènes 3D nettes à partir de vues de caméra limitées, surpassant les méthodes standard de NeRF et de splatting pour le débogage visuel.
L'évaluation reste un défi clé, avec des modèles excellant hors ligne mais luttant dans les cas limites du monde réel. Pour contrer cela, Tesla a créé un simulateur de monde appris—un moteur de vidéo généré par réseau neuronal qui simule huit flux de caméra Tesla simultanément dans des environnements entièrement synthétiques. Il prend en charge les tests, l'entraînement, l'apprentissage par renforcement, l'injection d'événements adverses (par exemple, un piéton coupant la route), et la relecture des échecs passés, fonctionnant presque en temps réel pour les simulations de conduite.
À l'horizon, Elluswamy a esquissé des plans pour étendre les services de robotaxi à l'échelle mondiale, atteindre l'autonomie totale à travers la flotte Tesla, et introduire le Cybercab—un véhicule deux places de nouvelle génération optimisé pour l'utilisation en robotaxi, visant des coûts de transport inférieurs à ceux des transports publics. Les mêmes réseaux neuronaux alimenteront le robot humanoïde Optimus, avec le système de génération vidéo maintenant appliqué pour simuler et planifier les mouvements des robots.