VLA與世界模型哪個更適合自動駕駛？為什么車企會有不同選擇？

2026-06-01 10:58

在自動駕駛快速發展的當下，世界模型與VLA成為兩大主流技術，雖然它們都屬于現在流行的大模型技術范疇，也都在為實現更高級別的無人駕駛出力，但它們在車里扮演的角色和思考問題的邏輯是完全不同的。那他們之間有什么區別？為什么車企會有不同選擇？

為什么車需要一個世界模型？

在傳統的算法里，車只是在被動地接收雷達和攝像頭傳回來的數據，然后根據寫好的邏輯去判斷該剎車還是該轉彎。而世界模型就像是給自動駕駛系統裝上了一個模擬器，它的核心在于預測，其不僅能看到現在發生了什么，更在乎下一秒會發生什么。它通過大量視頻數據的學習，掌握了物理世界的運行規律。李飛飛教授就曾在《金融時報》專訪中指出，缺乏空間理解的AI是不完整的，必須構建能感知三維環境、理解物理規律的世界模型，讓AI具備類似人類的空間認知能力。

圖片源自：網絡

自動駕駛行業在這個方面其實很早就布局了，英國自動駕駛公司Wayve在2023年就推出了生成式世界模型GAIA-1，經過持續優化，該模型最終擴展至90億參數，使用4700小時在倫敦采集的真實駕駛數據完成訓練，能夠根據視頻、文本和動作輸入生成逼真的駕駛場景。

特斯拉也于2025年發布了基于神經網絡的世界模擬器，一個為其FSD和擎天柱機器人項目打造的逼真虛擬訓練場。據特斯拉自動駕駛副總裁Ashok Elluswamy介紹，該系統能讓AI在一天內學習相當于人類500年的駕駛經驗，可一次性生成長達6分鐘、覆蓋8個攝像頭的逼真駕駛視頻，大幅降低了對真實路測的依賴。

世界模型還能讓車在腦子里復現出周圍環境的演變過程，Wayve的GAIA-1就是一個典型的例子，它通過學習海量駕駛視頻，不僅能夠理解車輛、行人、交通標志等各類交通要素，還能生成物理上合理、視覺上逼真的未來場景，甚至在訓練中表現出與大語言模型類似的規模效應，即模型越大、數據越多，預測能力越強。

圖片源自：網絡

如當車看到路邊有一個正在彈跳的皮球時，世界模型會基于它對物理世界的理解，預測出皮球后方極大概率會出現一個跑出來撿球的孩子。這種預測并不是靠人寫進去的代碼，而是模型在看過無數段交通視頻后，自己悟出來的因果關系。它通過預測未來的圖像或狀態，可以幫助駕駛系統提前做出反應，而不至于等到危險真的出現在視野里才急剎車。

特斯拉的世界模擬器在實踐中就體現了這種能力，它不僅可以在虛擬環境中重現歷史上的危險場景并探索不同的應對策略，還能主動創造現實中極為罕見的長尾場景和對抗性測試，幫助AI在安全環境中應對各種極端情況。

從技術實現的角度看，世界模型更像是一個時空環境的建模工具。它負責把復雜的交通環境、天氣變化、行人軌跡等信息，轉化成一種可以預測的內部表達。如果把自動駕駛比作一個駕駛員，世界模型提供的就是一種預判能力，讓車知道在當前的物理環境下，各種物體的運動趨勢是怎樣的。這種能力對于處理一些罕見的、突發的危險情況尤為重要，因為它能讓系統在事情發生前就對潛在風險有所覺察。

語言能力如何讓車更聰明？

說完世界模型，我們再來看看VLA，也就是視覺-語言-動作模型。顧名思義，它在視覺和動作之間加入了一個非常關鍵的中間層，即語言。很多人可能會覺得奇怪，車又不用開口說話，為什么要學語言？其實，這里的語言代表的是一種邏輯推理和常識理解能力。現在的VLA模型大多是把大語言模型作為大腦的核心，讓它來指揮車怎么開。

圖片源自：網絡

事實上，VLA正成為智能駕駛領域公認的下一代核心技術，理想汽車、小鵬汽車、長城汽車等國內主流車企都已加入VLA陣營，其中理想率先量產VLA模型，實現了讀懂路面文字與交警手勢的能力。

有了語言模型的加入，自動駕駛系統就不再只是處理像素和坐標，而是在處理概念。當車在路口看到一輛打著雙閃的物流車停在路邊時，普通的系統可能只把它當成一個靜止的障礙物，但VLA模型可以通過它的常識庫進行推理，如這輛車是在路邊裝卸貨，短時間內不會動，而且前方空間足夠，可以安全繞行。這種基于邏輯的判斷，正是語言模型帶來的優勢，它讓車具備了處理復雜語義和潛規則的能力。

現階段，VLA的使用已經非常普遍，小鵬汽車于2026年初發布了第二代VLA模型，官方將其定義為物理世界操作系統，徹底摒棄了視覺—語言—動作的傳統分段范式，以視覺輸入為起點直接映射至車輛控制指令，大幅壓縮了信息傳遞鏈路，顯著提升了響應實時性與推理穩定性。

英偉達則于2025年底正式開源了其自動駕駛VLA模型Alpamayo-R1，這是行業內首個專注自動駕駛領域的開源VLA模型。英偉達公布的數據顯示，該模型在復雜場景下的軌跡規劃性能提升了12%，近距離碰撞率減少了25%，推理質量提升了45%。值得一提的是，Alpamayo-R1主打可解釋性，能夠給出自身決策的理由，有助于安全驗證、法規審查與事故責任判定，這恰恰解決了傳統端到端模型黑盒決策的信任難題。

圖片源自：網絡

VLA模型的工作流程通常是這樣的，它先通過視覺模塊看清路況，然后把這些圖像信息轉化為語言描述，交給內核里的語言模型去思考。大模型會結合導航指令和當前的交通規則，像人類一樣給出一串邏輯分析，最后輸出具體的駕駛動作。

這種方式最大的好處是，我們可以直接用人類的自然語言跟車溝通，告訴它在前面路口找個安全的地方靠邊停一下，此時車就能理解什么是安全的地方，而不是只能執行精確到厘米的經緯度指令。

這兩者到底有什么本質不同？

雖然世界模型和VLA都在處理視覺信息，也最終都要服務于駕駛動作，但它們的側重點有著天壤之別。世界模型關注的是環境的邏輯，也就是這個物理世界是怎么動的。它不一定非要懂人類的語言，它的任務是把下一秒的畫面給畫出來或算出來，從而提供一個可靠的背景參考。你可以把它看作是一個精密的物理仿真引擎，存在于車的算法底層。

VLA更側重于決策的邏輯，它并不負責去模擬物理世界的演變，而是負責在看懂環境的基礎上，結合人類的知識體系去做決定。VLA更像是一個讀過很多書、經驗豐富的老司機，它知道遇到校車要保持距離，知道救護車鳴笛時要主動避讓。它解決的是為什么要這么開的問題。

圖片源自：網絡

簡而言之，世界模型給出了未來的可能性，而VLA則在這些可能性中，選出最符合邏輯和人類習慣的那一條路徑。

對于路線的選擇，特斯拉在ICCV 2025上的技術分享中給出了一個的答案，FSD采用端到端基礎模型與世界模型深度融合的路線，將多攝像頭圖像、導航地圖、音頻信號等輸入到一個統一的神經網絡中，直接輸出控制指令，其整體框架與世界模型思想高度相似。

需要一提的是，世界模型在實際產業應用中已經展現出強大的數據生成能力。商湯絕影在2025年世界人工智能大會上發布了絕影開悟世界模型，這是業內首個已量產、可交互的世界模型。基于一張A100的GPU，絕影開悟每天生成的數據相當于10臺真實車或100臺路測車的數據采集能力。借助該模型，商湯絕影已生產超100萬clips面向量產的生成式數據，覆蓋50多類天氣和光照條件、200類交通標牌和300類道路連接場景，并與上汽智己汽車合作打造面向量產端到端的數據工廠。

圖片源自：網絡

此外，世界模型和VLA的學習方式也有所不同。世界模型主要是通過海量的無標注視頻來學習，就像小孩子看電視一樣，看得多了自然知道杯子掉地上會碎。而VLA的訓練則需要大量的視覺-指令-動作對，它需要學習人類在特定場景下是怎么思考和操作的。簡單理解就是，世界模型在構建車對外部世界的認知，而VLA在構建車對駕駛任務的理解。

未來它們會如何分工協作？

在未來的自動駕駛架構中，這兩者并不是互斥的關系，反而更有可能走向融合。一個完善的系統，既需要世界模型提供的強大預判力，防止意外發生，也需要VLA模型提供的高級推理能力，應對復雜的城市交互。世界模型可以作為VLA的安全底座或者是訓練模擬器，讓VLA在腦海中進行成千上萬次的模擬駕駛，而不需要在真實道路上測試。

圖片源自：網絡

當前，行業陣營的分化與融合正同步推進，理想與小鵬主推VLA路徑，華為與蔚來傾向世界模型，吉利與Momenta明確站隊世界模型陣營。但在實際技術實踐中，二者的邊界正趨于模糊，理想的MindVLA-o1整合了隱式世界推演能力，而吉利的WAM世界行為模型同樣依賴多模態識別與價值函數評估。特斯拉FSD V12在舊金山的復雜路況測試中，匝道匯入成功率提升了40%，其核心正是在端到端模型中引入了世界模型以模擬10萬種潛在駕駛場景。Wayve則已在倫敦、東京等城市開展Robotaxi路測試點，持續推進端到端學習架構在復雜城市環境中的落地驗證。

當我們把這兩者結合起來時，自動駕駛將變得更加智能。車既能通過世界模型看透物理規律，避開視覺盲區里的風險，又能通過VLA像人一樣理解復雜的交通意圖，在車流中絲滑地穿梭。這種技術的進步，正讓自動駕駛從一個只會按指令行事的機器，變成一個真正有常識、有邏輯、能預測的智能體。

-- END --

原文標題 : VLA與世界模型哪個更適合自動駕駛？為什么車企會有不同選擇？