當智駕來到物理AI時代，行業會發生什么變化？

2026-06-02 10:04

如果你最近看過幾場汽車發布會，可能會注意到一個反復出現的詞，那就是物理AI大模型，小鵬在講，理想在講，Momenta在講，連做芯片的英偉達也在講。這個詞出現的頻率之高，讓人感覺它不僅僅是又一個營銷話術，更像是一個行業趨勢。那么物理AI到底指的是什么？它跟之前常說的端到端、BEV+Transformer有什么本質區別？當智駕系統開始用物理AI來驅動，開車的體驗會發生哪些真實的變化？

為什么自動駕駛到了一個不得不變的時刻？

在物理AI成為熱詞之前，智駕行業的主流技術路線是端到端，端到端用一個神經網絡去模仿人類駕駛員的駕駛行為，通過給這個網絡看大量的駕駛數據，便可以完成駕駛動作的學習。在端到端大模型中，輸入是攝像頭畫面，輸出是方向盤轉角和油門剎車信號，其不需要工程師手寫規則，也不需要把感知、決策、控制拆成獨立的模塊來處理，網絡自己就能從數據中學會開車的基本操作。

現在端到端這條路確實跑通了，而且跑得很快，城市導航輔助駕駛在越來越多的車型上落地，高速場景的表現也越來越穩定。但隨著端到端模型的應用，行業很快又發現了一個問題，端到端模型在面對沒怎么見過的場景時，表現會明顯下滑。元戎啟行的CEO周光就用過一個比喻來描述這個問題，做智駕就像坐蹺蹺板，你把上海某個特別復雜的路口調好了，結果深圳某個路口就出問題了；今天把城市擁堵的加塞處理順了，明天跑山路急彎又不對勁了，按下葫蘆浮起瓢，永遠在補漏洞，他把這種現象叫作蹺蹺板效應。

圖片源自：網絡

那出現這個問題的原因到底是什么？其實端到端模型本質上是在記住駕駛行為，而不是在理解為什么要這么做。它從訓練數據里學到的是一種統計上的關聯，即某種畫面輸入大概率對應著某種操作輸出。模型并不知道畫面里的那個障礙物是一個正在滾落的箱子，也不知道箱子滾落的軌跡和速度會受什么物理規律影響，它只是見過類似的畫面，然后模仿了畫面對應的操作。一旦遇到訓練集里沒怎么出現的如一輛三輪車拉著超寬的貨物在一個鄉鎮集市路口慢慢轉彎，旁邊還跟著幾個提著菜籃子、走位飄忽的行人等場景，模型的泛化能力就非常有限了。

理想汽車的CEO李想就曾直言，傳統端到端模型本質是模仿學習，它只能接收視覺信號結合車速輸出運動軌跡，并不具備對真實物理世界的因果理解能力；即使能應付大部分泛化場景，遇到從未見過的復雜情況就會出現問題。而這這恰是物理AI可以解決的核心問題。

什么是物理AI？

我們可以先做一個簡單的對比，大家熟悉的ChatGPT、DeepSeek這類模型，處理的是文字、圖片、視頻這些數字世界里的信息，你問它一個問題，它給你一個答案。它不需要知道重力加速度是多少，不需要理解一個球掉在地上會彈幾下，也不用關心一個杯子從桌上滑落之后會碎成幾片，這些東西對它的工作也沒有影響，因為它處理的始終是符號和信息。

物理AI處理的東西則完全不同，它的輸入來自攝像頭、激光雷達、毫米波雷達這些真實世界的傳感器，它的輸出是方向盤轉角、剎車壓力、油門開度這些會改變真實世界狀態的控制信號。它必須理摩擦力、慣性、動量、運動軌跡等解物理規律，因為這些規律決定了它做出的每一個決策能不能成立。

舉一個簡單的例子，物理AI需要知道，在濕滑路面上同樣的剎車力度會帶來更長的制動距離；一個高速旋轉的車輪如果突然抱死，車輛可能會側滑而不是直線停止。這些對于它來說不是抽象的知識，而是做決策時必須依賴的計算條件。

圖片源自：網絡

簡單概括下，物理AI是一類能夠感知真實物理環境、理解其中的物理規律、并在該環境中采取行動的智能系統。它的核心特征不是大，而是與世界連通，的認知和行動必須符合物理世界的約束。

對于自動駕駛來說，物理AI做的不是讓系統簡單地從數據中記住看到什么就做什么，而是能夠在內部構建一個對當前環境的動態理解，其中包括每個物體的位置、速度、運動趨勢，然后基于對物理規律的認知去預測接下來幾秒會發生什么，最后選擇一個安全、高效的操作方案。這個過程中，它既要用到語義理解能力（比如看懂紅綠燈和交警手勢），也要用到物理推演能力（比如預判一個正在滾落的球會往哪跑）。

有了這個概念基礎，就可以理解為什么如今的智駕系統需要從端到端向物理AI升級了。

兩條路線，一個目標

行業在過去的一年里分化出了兩個主要的技術方向，即VLA和世界模型。它們的目標一致，那就是讓智駕系統具備對物理世界的整體認知能力，但實現路徑有所不同，昨天就和大家討論了各車企在兩個方案上的選擇（相關閱讀：VLA與世界模型哪個更適合自動駕駛？為什么車企會有不同選擇？）。

VLA是Vision-Language-Action的縮寫，它的基本思路是把大語言模型的能力引入自動駕駛。視覺編碼器提取圖像特征后，語言模型先對場景進行描述（比如“前方路口有行人正在橫穿，速度較快”），再由動作模塊根據這段描述來決定如何操作。這種設計的優勢在于系統能看懂復雜的語義信息。像是交警用手勢示意通行這類動作，傳統系統很難理解，但VLA可以通過語言模型的語義理解能力，知道手勢意思是讓我先走。同樣，它也認得左轉待轉區、公交專用道這些名稱背后代表的規則。

圖片源自：網絡

但VLA也存在幾個比較棘手的問題，其語言描述本身存在模糊性，行人速度較快和行人正在小跑之間的細微差別，可能導致完全不同的決策結果。語言模型的推理一般需要200到500毫秒，而自動駕駛在緊急情況下需要100毫秒以內完成響應。另外，語言模型的訓練數據很難窮盡所有物理世界可能出現的狀態，在處理極度罕見的場景時仍然會面臨泛化難題。

世界模型則走了另一條路，它的核心做法不是通過語言，而是直接在三維空間中構建一個對環境的動態表征系統。世界模型會持續接收傳感器數據，更新它內部對每個物體位置、速度、運動軌跡的認知，同時預測接下來幾秒環境將如何演變。你可以把它理解為一個在系統內部運行的物理模擬器，AI可以在模擬器中提前推演各種操作方案，當推演出最優結果后再付諸執行。

圖片源自：網絡

世界模型對空間關系和運動規律的把握具有天然優勢，因為它本質上就是在學習物理世界的演化規律。但在理解人類社會約定俗成的交通規則方面，它不如VLA，它能算出物體會怎么動，但不一定理解交警的手勢或者路牌上的文字說明了什么規則。

走到今天，行業里逐漸形成了一個共識，那就是這兩條路不是非此即彼的選擇，而是可以融合在一起。物理AI的核心特征，正是在決策過程中同時融入了對語義規則的理解和對物理規律的推演。

融合到底是怎么做的？

物理AI中的融合是如何實現的？目前行業中有幾種比較成熟的方案，各有側重。

一種是在傳統VLA的基礎上進行重構，以小鵬的第二代VLA為例，它去掉了語言轉譯這個中間環節，視覺信號不再先被寫成文字描述、再由動作模塊把文字翻譯成控制指令，而是直接從視覺特征映射到車輛的控制信號上。當系統感知到障礙物的位置、速度、運動趨勢之后，直接輸出方向盤轉角和加減速指令。

由于跳過了語言模型的推理過程，整套流程的延遲被大幅壓縮，小鵬公布的數據顯示，其決策延遲可以控制在80毫秒以內。由于系統仍然保留了語言模型帶來的語義理解能力，它依舊能知道紅綠燈每個顏色代表什么含義，知道交警的手勢是什么意思，也能理解路牌上的文字信息。

圖片源自：網絡

還有一種思路上以世界模型為主體，引入強化學習作為訓練機制，世界模型為系統提供一個符合物理規律的虛擬訓練環境，而強化學習是驅動系統在這個環境中不斷試錯、從中學習的核心方法。系統在虛擬環境里反復演練，嘗試不同的駕駛策略，根據駕駛結果的好壞獲得獎勵或懲罰，如果一次操作既安全又平穩，系統就會得到正向激勵；如果操作導致危險或者讓乘客感到不適，系統就會受到懲罰。經過海量的虛擬演練，系統最終會自己摸索出最優的駕駛方式。

這種方法和傳統端到端的模仿學習有本質區別，模仿學習是讓模型看大量的人類駕駛數據，然后試圖復制人類的行為。但強化學習允許AI跳出模仿的框架，在虛擬推演中自己探索如果我是這個場景里的駕駛員，應該怎么開才最好。

Momenta的R7強化學習世界模型和小馬智行的PonyWorld 2.0都采用了這一思路，PonyWorld 2.0甚至具備了自我診斷能力，系統能自動分析每一次駕駛決策的失敗原因，是感知環節出了問題還是規劃方向錯了，并根據診斷結果自動生成針對性的訓練場景來彌補短板。

圖片源自：網絡

理想汽車在NVIDIA GTC 2026上發布的MindVLA-o1模型則將上述兩種思路進行了深度整合，它的核心是一個原生多模態MoE Transformer，同時做了幾件事，通過3D空間理解讓模型同時感知語義信息和三維幾何結構；引入預測式隱世界模型，在潛在空間里模擬未來場景的演化趨勢；采用閉環強化學習策略，利用虛擬模擬器持續探索和優化駕駛策略。

物理AI會帶來哪些實質性的變化？

如果上述技術路徑最終能在大規模應用中跑通，自動駕駛將會發生幾個根本性的變化，這些變化都會直接體現在日常使用體驗上。

第一個變化是系統對陌生場景的適應能力會大幅增強，傳統模型在處理長尾問題時格外吃力，而物理AI在長尾場景中的表現將不同，世界模型可以在虛擬環境中自動生成這些從未見過的場景，而且生成的過程遵循真實的物理規律。像是皮球滾落的速度和反彈軌跡、紙箱被風吹動的方向和距離，都是符合物理計算的結果，系統在虛擬環境中提前學習處理這些情況，在遇到真實場景時就不再是沒見過、不會處理的狀態了。

圖片源自：網絡

還有一個變化是駕駛決策從統計關聯轉向因果推理，傳統自動駕駛在面臨風險場景時，本質做的是基于概率的判斷，如這個場景和訓練數據中的某個場景相似度很高，在那個場景下駕駛員踩了剎車，所以在這里也踩剎車。但物理AI能夠嘗試理解事件之間的因果關系，如前車突然減速，系統會判斷是因為前車前方有障礙物，還是前車駕駛員自己開車風格猶豫。這兩種情況下，本車的應對策略應該不同，前者需要本車也及時減速，后者則可以保持巡航，在物理AI時代，系統不是簡單地模仿統計規律，而是嘗試理清事件之間的因果鏈條，從而做出更準確的應對。

此外，物理AI還可以從模仿少數優秀駕駛員，升級為自己探索最優駕駛策略，傳統的端到端模型能學到的最好水平，不會超過訓練數據里駕駛員的平均表現，也就是說，如果訓練數據里的駕駛員在某些場景下處理得不夠好，模型學到的基本也是不夠好的處理方式。但物理AI配合強化學習后，系統可以在虛擬環境中不斷試錯和自我優化，逐步探索出比訓練數據更優的駕駛策略，安全性和舒適性兩種約束被設計成獎勵函數的一部分，AI在推演中會自然而然地找到兩者之間的最佳平衡點。