テスラのAI担当副社長、アショック・エラスワミ氏は、Full Self-Driving (FSD) ソフトウェア、AI開発、およびチームの最新イノベーションの進捗を詳述した30分のプレゼンテーションを公開しました。International Conference on Computer Vision (ICCV) を通じて提供され、テスラの膨大なデータリソースと新しいシミュレーションツールを強調しています。この講演は、グローバルなロボットタクシー拡大とフルフリート自律性に向けた取り組みを強調しています。
プレゼンテーションで、エラスワミ氏はテスラの比類なきデータ優位性を強調し、会社の車両フリートが「毎日500年分の運転データを生成する」と述べました。彼はこれを「データのナイアガラの滝」と表現し、数百年分のフリート全体の集積運転データからなり、複雑な交差点や予測不能な行動などの希少なエッジケースに対するスマートデータトリガーで捕捉されます。このアプローチにより、テスラは効率的なモデル訓練のための必須データのみを抽出でき、8つの高フレームレートカメラが運転コンテキストの30秒あたり数十億のトークンを生成する「次元性の呪い」を解決します。
エンドツーエンドのニューラルネットワークシステムにもかかわらず、テスラはデバッグのための解釈可能性を維持しています。エンジニアはモデルに3D占有率、道路境界、物体、標識、交通信号などの補助予測を出力させるよう促すことができ、これらは車両を制御しませんが、安全チェックを支援します。自然言語クエリにより、特定の決定がなぜ下されたのかのような質問が可能になります。また、テスラは限られたカメラビューから鮮明な3Dシーンを再構築するためのカスタム超高速ガウススプラッティングシステムを開発し、視覚デバッグのための標準NeRFおよびスプラッティング手法を上回ります。
評価は依然として主要な課題で、モデルはオフラインで優れているものの、現実世界のエッジケースで苦戦します。これに対処するため、テスラは学習済みワールドシミュレーターを作成しました。これはニューラルネットワーク生成のビデオエンジンで、完全に合成環境で8つのテスラカメラフィードを同時にシミュレートします。テスト、訓練、強化学習、敵対的イベント注入(例: 歩行者が割り込む)、過去の失敗の再生をサポートし、シミュレートドライブでほぼリアルタイムで動作します。
将来を見据え、エラスワミ氏はロボットタクシーサービスのグローバルスケーリング、テスラフリート全体の完全自律性の達成、およびCybercabの導入を概説しました。Cybercabはロボットタクシー用に最適化された次世代2シーター車両で、公共交通機関より低い輸送コストを目指します。同じニューラルネットワークがヒューマノイドロボットOptimusを駆動し、ビデオ生成システムが現在ロボットの動きをシミュレートし計画するために適用されています。