新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

侵權投訴
訂閱
糾錯
加入自媒體

特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」

2026-06-05 10:02
vehicle公眾號
關注

北京時間 6 月 4 日凌晨,CVPR 2026(計算機視覺頂會)在美國丹佛開幕。特斯拉自動駕駛與 Optimus 雙線負責人 Ashok Elluswamy 在「具身智能基礎模型部署」專題工作坊登臺,題目只有一句話:Building Foundational Models for Robotics at Tesla

其實這是特斯拉的老題目和老slides了,那么這次CVPR特斯拉Ashok Elluswamy 又透露了什么新東西?Jack為你根據CVPR現場最新的圖片解讀。

「我們不是在造一個駕駛產品,而是在為所有機器人構建一個統一的基礎模型。同一套模型,今天開車,明天就在工廠里搬箱子。」—— Ashok Elluswamy,特斯拉 AI 軟件副總裁

以下是這場演講的完整內容還原和解讀。

一句話總結:把整個機器人問題,壓成「2 個 token 的輸出」。

01 使命:用通用機器人,創造「極度豐裕」

演講一開場,Elluswamy 把特斯拉的 AI 版圖攤在一張幻燈片上:三條線,同一個內核。Self-Driving(可規模化的車輛自治)、Optimus(面向物理世界的人形機器人)、以及 Digital Optimus(端到端的電腦操作智能體——演示里它直接聽懂「幫我清空 first touch 收件箱」并自己點完)。

他強調,這三件事看起來是三個產品,本質卻是同一個基礎模型在不同身體上的投影。目標只有一個:通過通用機器人把人類從重復性體力勞動中解放出來,創造「Amazing Abundance(極度豐裕)」。

三條線、一個內核:Optimus、Self-Driving、Digital Optimus。Optimus 已能用自然語言被指揮學習新任務(現場為 1.5 倍速畫面)。

所以,可以總結,特斯拉將基礎模型當作不管是物理還是數據AI的底層了。

02 規模:130 萬輛車,已經在全球路上跑

這次slides的更新是,他給出當前的部署版圖:

全球已有約 130 萬輛具備監督式自動駕駛能力的特斯拉在路上。

北美(美國、加拿大、墨西哥)已交付,歐洲的荷蘭、愛沙尼亞、立陶宛,亞太的中國、韓國、澳新等地或已交付、或在等待監管放行。

綠色為已交付客戶的市場,黃色為等待監管批準。中國位列已交付區域。

規模意味著數據。截至演講時,FSD 累計行駛里程已超過 108 億英里,其中城市道路約 40.7 億英里——這正是后面所有論證的燃料。

1.3M全球監督式自動駕駛車輛108 億FSD 累計行駛英里數

03 證據:前沿技術正在讓道路更安全

Elluswamy 用「發生一次重大碰撞前能開多少英里」這個指標做對比——數字越大越安全。無論高速還是城市道路,開啟 FSD(監督版)的特斯拉,里程都顯著高于手動駕駛、也遠高于全美平均水平。這算是廣告了,但也確實給人類自動駕駛帶來了信仰,確實自動駕駛安全性高于人。

高速 vs 非高速:FSD 監督版(藍)每 890 萬 / 290 萬英里才發生一次重大碰撞,遠高于全美平均的 150 萬 / 50.5 萬英里。

北美全路況口徑:重大碰撞前里程 510 萬英里(FSD)對 69.9 萬英里(全美平均)。數據來源 tesla.com/fsd/safety。

04 硬件:跑在自研 AI4 芯片上,雙腦互檢

目前特斯拉的這套模型跑在特斯拉自研的 AI4 推理芯片上,關鍵詞是「完整的故障切換冗余」——兩臺計算機并行運行、互相校驗,一臺出問題,另一臺瞬間接管。而且,同一顆芯片,既驅動車上的 FSD,也驅動 Optimus 機器人。

Tesla AI4:車與機器人共用的同一顆推理芯片,雙計算機并行互檢。

所以,這意味著,特斯拉所有的車子當前計算方面都是考慮冗余的,這也就是為什么說特斯拉表示以后自己的特斯拉可以出租加入Robotaxi編隊,當然這個哪位技術大拿,從硬件和軟件上進行詳細拆解。

05 架構:一個端到端的「機器人基礎模型」

接下來是核心。特斯拉一直宣稱的端到端大模型:一個大模型,海量數據訓練,超長上下文,以 36Hz 運行,直接吐出控制動作。

輸入端把攝像頭視頻、導航與指令、車輛運動學、音頻等等一股腦喂進去;輸出端就是「下一個動作」。沒有手寫規則,沒有中間表示的硬切分。

端到端基礎模型:多模態輸入 → 大型神經網絡 → 直接產生下一步動作。

為什么非要端到端?這是這次演講中一直提出的問題,這個大家也都熟悉了,因為人類的價值觀,幾乎無法用代碼窮舉

他舉了個「微型電車難題」:前方一個小水坑,是從水坑上壓過去,還是短暫越過中線借對向車道繞開?沒有標準答案,取決于水坑大小、對向有沒有車、路面情況……這種判斷只能從海量真實數據里「學」出來,而不是寫死在 if-else 里。

「微型電車難題」:壓過小水坑,還是借對向車道?真實道路上全是這種沒有標準答案的取舍。

然后他拋出全場的主線——把整套端到端的方法做成現實,要跨過三道關卡

關卡一 維度災難(Curse of Dimensionality)

Elluswamy 表示自動駕駛的輸入上下文,長到驚人。

Elluswamy 現場算了一筆自動駕駛需要的數據賬:7 路攝像頭 × 36 FPS × 500 萬像素 × 30 秒歷史,再除以 5×5 的像素塊——輸入上下文約 20 億個 token。再加上導航地圖、100Hz 的運動數據、48kHz 的音頻。

而輸出呢?

只有 2 個 token:下一步的轉向和加速度。

模型要做的,是學會這 20 億 → 2 的正確因果映射。

「超長上下文是駕駛的最低門檻」:約 20 億輸入 token,僅 2 個輸出 token。

特斯拉表示應對維度災難的唯一解,是規模化的車隊數據

海量數據帶來兩樣東西:極強的泛化能力,以及「主動安全」——模型在罕見、危險的長尾場景里也能提前預判。

他放了一段畫面:城市道路上,一個孩子騎車突然摔倒滾向車道,系統提前減速避讓。這種場景人工根本造不全,只能靠真實車隊「撈」回來。

大數據帶來極致泛化與主動安全:左為騎車孩童突然摔入車道的長尾場景。

關卡二 可解釋性與安全保證

端到端最大的質疑是「黑箱」。Elluswamy 的回應是:用思維鏈(Chain-of-Thought)和過程驗證來破解。基礎模型在輸出動作的同時,還會預測一大堆「可被人讀懂」的中間結果。

模型同時吐出的可解釋信號:· 3D 占據與流(3D occupancy & flow)· 車輛、行人、騎行者等物體· 交通管制(信號燈、標志)· 道路邊界、車道語義、限速· 各交通參與者的交互概率· 以及——用自然語言表達的決策理由

同一個大網絡,旁路輸出全景分割、3D 占據、3D 高斯、語言與推理,讓動作變得「可審查」。

可解釋輸出清單:從 3D 占據、物體、交通管制到「以自然語言表達的決策」。

所以,特斯拉也采用自然語言推理。

現場畫面里,車輛遇到「前方道路施工封閉 + 改道標志」的長尾情況,系統用一問一答的鏈條自我推理:「能直行走導航路線嗎?→ 不行,前方有改道牌和施工護欄。→ 那該怎么走?→ 在這個路口左轉。→ 為什么不右轉繞?→ 因為改道牌指示向左。」每一步都打了對勾或叉。

這個和我們之前文章《黃仁勛GTC Taipei 2026 Taipei完整解密:科普Agent、升級物理AI基座模型Cosmos 3、重構PC!》講到的英偉達Alpamayo 一樣的。

自然語言推理應對長尾:模型像答題一樣,把「為什么這樣開」一步步講清楚。

所以,特斯拉給的答案,不管什么模型,語言這個東西去不掉,你不用他輸入,你也要用他輸出,畢竟交互的是人,人最直觀通用的就是語言。

關卡三 評估(三道關卡里最難的一道)

他直言,評估是三者中最難的。原因很反直覺:

· 數據集再好,loss 也不足以代表真實性能· 開環(open-loop)表現好,不保證閉環(closed-loop)也好· 避免一次事故有很多種正確解法,指標必須能容納這種「多模態」· 一種思路是評估「行動后果」的預測· 需要均衡且全面的評測集· 工作枯燥,但極其重要

評估為何最難:好的開環不等于好的閉環,指標必須捕捉「多種正確做法」。

那么如何解呢,特斯拉的解法,是再訓練一個神經網絡世界模擬器(World Sim NN)

它吃進「當前狀態 + 動作」,預測「下一時刻的狀態」(攝像頭畫面、導航、運動學、音頻……一應俱全),再把狀態喂給策略網絡(Policy NN)產生下一個動作——形成一個完全在神經網絡里跑的閉環模擬器

閉環模擬:World Sim NN 生成下一狀態 → Policy NN 產生下一動作 → 再回灌,形成回路。

世界模擬器可用「便宜易得的狀態-動作數據」訓練:t 時刻狀態 + 動作 → t+1 時刻狀態。

采用這套模擬器能用來做策略評估、回歸測試,甚至主動注入新問題和對抗場景;壓縮算力后還能實時運行。

更關鍵的是——同一套神經模擬方法,能從 FSD 直接遷移到 Optimus,把工廠、室內等場景一并生成出來。

神經模擬從 FSD 規模擴展到 Optimus:同一方法生成工廠與室內場景。

06 結語:特斯拉,是做「現實世界 AI」的地方

三道關卡講完,特斯拉自動駕駛的邏輯閉環了:

維度災難靠車隊數據解,

黑箱靠思維鏈解,

評估靠神經世界模擬器解。

而這一切的終點,是把駕駛訓練出來的同一個基礎模型,擴展到所有機器人身上——車、人形機器人、數字智能體。

最后一頁,是招募。這也是特斯拉常做的事情。

收尾頁:Tesla is the place for real-world AI & Robotics(tesla.com/AI)。

Vehicle 觀察|對中國同行意味著什么

這場演講給中國汽車的輔助駕駛/自動駕駛的啟發,不是「特斯拉有多強」,而是它把自動駕駛重新定義成了「具身智能的一個子集」——車只是第一個身體。

對于輔助駕駛/自動駕駛行業的開發和部署講,已經不是一個算法和算力能夠取勝,而是正在從「算法」轉向「數據飛輪 + 閉環評估體系」的全體系競爭:誰能更便宜地做好各種輔助工具,造出可信的閉環評測,誰就能更快迭代。這恰恰是國內擁有海量真實路況數據的玩家,最有機會發力,也最容易被忽視的環節。

來源:Ashok Elluswamy(特斯拉 AI 軟件副總裁)在 CVPR 2026 的演講《Building Foundational Models for Robotics at Tesla》,2026 年 6 月 3 日于美國丹佛(同款內容亦曾在 Scaled ML 2026 發表);演講頁圖片由公開現場拍攝整理、已裁去上下黑邊。安全里程數據引自 tesla.com/fsd/safety。本文為「Vehicle」據現場幻燈片與公開資料整理還原,部分表述為編輯轉譯,不代表演講者逐字原話。

*未經準許嚴禁轉載和摘錄-

       原文標題 : 特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    在線客服

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號