從堆算力到求高效，智駕算力真的越高越好嗎？

2026-05-29 10:12

在汽車智能化轉型的下半場，算力已經從單純的硬件參數演變為衡量一款車型智能化水平的關鍵指標。所謂算力，就是車載計算平臺在單位時間內能夠執行的計算操作次數，它決定了車輛能否在復雜的道路環境中看得清、想得快并動得準。隨著自動駕駛等級從基礎的駕駛輔助向高度自動駕駛甚至完全自動駕駛邁進，算力的角色正在經歷從輔助工具到核心驅動力的方向轉變。

從2026年北京車展上也可以看到，汽車行業已從整車單點性能全面升級為算力+算法+數據+生態的全產業鏈生態對決，理想L9 Livis搭載2顆自研5nm馬赫100芯片，綜合算力2560TOPS；蔚來ES9搭載自研神璣芯片，算力超1000TOPS；小鵬GX則宣稱配備4顆自研圖靈AI芯片，本地有效算力達3000TOPS。這些數字的背后，標志著算力已成為車企智能化競爭的核心。

算力的作用是什么？

要理解算力的作用，必須先清楚自動駕駛系統的基本運作邏輯。一個典型的自動駕駛系統由感知、決策、規劃和控制四個核心環節組成。在感知環節，車輛搭載的攝像頭、激光雷達和毫米波雷達等傳感器會產生海量的原始數據。

以一個高清攝像頭為例，其每秒產生的原始圖像數據量可能高達數百兆比特。此時算力的作用就非常重要，其會對這些非結構化的數據進行實時解析。這就要求芯片具備極高的并行處理能力，通過復雜的神經網絡算法，在毫秒級的時間內識別出道路上的行人、車輛、車道線以及交通燈的狀態。

在這一過程中，算力是支撐感知算法從二維圖像向三維空間投影的物理基礎，也是實現全方位環境建模的前提。

圖片源自：網絡

隨著感知技術從早期的簡單目標檢測向現在的BEV（鳥瞰圖）和占用網絡演進，算力的消耗量呈現出指數級增長。從CNN到Transformer+BEV，算力需求從20~30TFLOPS直接躍升至200+TFLOPS，增幅接近一個數量級。

隨著感知技術從早期的簡單目標檢測向現在的BEV（鳥瞰圖）和占用網絡演進，算力的消耗量呈現出指數級增長，Transformer架構的引入則進一步推高了算力需求。

BEV架構要求將多個不同視角的攝像頭畫面統一轉化到一個空間坐標系下，這高度依賴Transformer的注意力機制，它能讓系統像人眼一樣，通過對比不同傳感器在不同時間點的數據，聚焦關鍵信息，建立起對環境的深度理解。這種機制雖然顯著提升了感知的準確性和魯棒性，但其背后涉及的空間變換和矩陣運算量極其驚人，對車載芯片的瞬間吞吐能力提出了極高要求。

有研究指出，與傳統CNN相比，Transformer的計算需求量提升了約100倍，但其中90%以上的計算需求貢獻的價值很低，導致大量功耗被白白浪費。以小鵬G6的XNGP系統為例，僅BEV模塊就消耗了60%的算力資源，城市NOA運行時雙Orin-X芯片功耗接近40W，導致續航也有所縮水。

圖片源自：網絡

極氪千里浩瀚智駕系統的算力分配也印證了這一點，在其雙Orin-X方案中，BEV網絡占用200TOPS，Occupancy網絡占用150TOPS，強化學習（RL）模塊占用100TOPS，剩余算力才用于冗余備份。在感知之后的決策與規劃階段，算力則扮演著邏輯推理者的角色。

自動駕駛系統還需要根據感知到的動態環境，預測周圍行人或車輛在未來幾秒內的可能路徑，并計算出一條最安全、最平穩且最符合交通規則的行駛軌跡。在城市場景中，由于參與者眾多且行為極具不確定性，系統每秒鐘可能需要模擬數千種可能的駕駛路徑并從中篩選出最優解。

這種大規模的路徑搜索和概率計算，同樣需要強大的計算資源作為支撐。如果算力不足，系統可能會出現決策遲滯，導致車輛在復雜路口駐足不前，甚至因為無法及時響應突發狀況而引發安全風險。因此，算力在這一階段是保障行駛效率與安全性的核心屏障。

算力越高就越好嗎？

在談及算力時，經常會提及TOPS（每秒萬億次操作）這一指標，那么算力是否越高越好？其實在很多公布的數據中，標稱的TOPS數值代表的是芯片在理想狀態下的峰值理論性能，但在實際應用中，芯片的真實表現會受到有效算力利用率的制約，這就引出了一個核心概念，即算力利用率。

有行業實測數據顯示，傳統通用GPU架構由于大量晶體管用于指令調度而非有效計算，實際算力利用率普遍不足40%。更嚴峻的是，通用芯片超過70%的功耗花在了數據搬運上，真正用于計算的功耗不到30%，標稱算力的實際利用率通常只有25%-35%。

如果一個芯片標稱有500 TOPS，但由于其內部架構與當前主流的算法不匹配，或者在數據流轉過程中出現了阻塞，就會導致其只能發揮出50 TOPS的效能，那么再高的標稱數字也將失去意義。因此，衡量算力的優劣不僅要看總量，更要看其單位功耗下的有效輸出，即PPA（功耗、性能、面積）的綜合平衡。

圖片源自：網絡

當前阻礙算力充分發揮的一個主要瓶頸是存儲墻問題，在自動駕駛的計算任務中，數據需要在計算核心與存儲單元之間頻繁往返。隨著模型規模的增大，數據的搬運量激增，如果芯片的內存帶寬跟不上計算核心的速度，計算單元就會因為等待數據而處于閑置狀態。

對于Transformer架構的智駕大模型，90%的性能瓶頸從來不是計算單元的算力不夠，而是算存分離架構帶來的內存墻問題。通用芯片的傳統架構里，計算單元和存儲單元會完全割裂，Transformer推理所需的權重和特征數據絕大部分存在片外DRAM里，每次計算都要進行長途搬運。

就有研究顯示，在傳統的CNN架構中，計算與帶寬的需求比例為100:1到1000:1之間，但在Transformer架構下，這一比例顯著縮小到了1:1到10:1。這意味著芯片的片上帶寬和總線速度正逐漸取代峰值算力，成為制約系統性能的真正瓶頸。

如果硬件架構沒有針對Transformer的計算特性進行底層重構，單純增加計算單元只會造成硬件資源的極大浪費。正因如此，行業開始從單純堆算力轉向追求有效算力。

圖片源自：網絡

蔚來神璣NX9031芯片就是一個量產上車、從底層實現近存計算架構的車規智駕芯片，它將95%以上的Transformer數據訪問全部限制在片內完成，片外DRAM訪問量直接降低87%，峰值算力利用率高達92%，這意味著其標稱1000TOPS的INT8算力，實際可用穩定算力可達920TOPS；而4顆Orin X標稱總算力1008TOPS，在30%的實際利用率下，可用算力只有300TOPS出頭。這正是架構創新帶來一顆打四顆效果的根本原因。

此外，軟件與硬件的協同優化也決定了算力效能的關鍵。為了讓算法在有限的資源下跑得更快，開發者會采用剪枝和量化技術。剪枝技術通過識別并剔除神經網絡中那些對最終結果貢獻較小的神經元或連接，減少了模型的計算復雜度和權重存儲空間。量化技術則是將原本高精度（如32位浮點數）的計算轉化為低精度（如8位整數）的運算，從而大幅提升計算速度并降低功耗。

這些技術雖然能減輕算力壓力，但它們高度依賴芯片硬件對特定計算模式的支持。一款優秀的自動駕駛芯片應該是針對特定算法量身定制的加速器，就像是地平線的BPU架構就是專門為神經網絡設計的，它在處理特定感知任務時，效能比通用的GPU要高出許多。

不同架構芯片在處理自動駕駛任務時的效能特征對比

算力應如何適配硬件？

算力并不是憑空產生的，其背后是實實在在的能源消耗。對于電動汽車而言，車載計算平臺、傳感器以及散熱系統共同組成了巨大的用電負荷，這直接影響了車輛的續航里程。在開啟高級別自動駕駛功能的情況下，計算系統的功耗更會使電動汽車的續航里程下降顯著。

在城市擁堵路況下，由于行駛速度慢、環境復雜度高，計算平臺長時間處于高負載運作狀態，續航降幅甚至可能達到30%。這種智能與節能之間的沖突，使得車企在規劃算力方案時必須保持克制，尋找一個足以支撐功能需求但又不過度消耗能源的節點。

除了對電量的消耗，高算力帶來的散熱問題同樣棘手。高性能芯片在滿負荷運作時會產生大量的熱量。如果散熱不暢，芯片會因為過熱而觸發限頻保護，導致算力瞬間跌落，這在對實時性要求極高的自動駕駛場景中是極其危險的。

為了解決這一問題，很多高端車型不得不引入昂貴且復雜的液冷系統，這不僅增加了車輛的硬件成本，也增加了系統的總重量。因此，算力的高必須建立在高效的基礎上。

圖片源自：網絡

這一點在產業實踐中已得到充分驗證。英偉達基于Blackwell架構的AGX Thor芯片，雖然算力高達2070 FP4 TFLOPS，但功耗控制在130瓦，實現了極高的能效比，這也是其能支撐L4級智駕與生成式AI的關鍵所在。

在車載環境下，每一瓦特的電能都極其珍貴，追求極低功耗下的高性能（高TOPS/W）才是芯片研發的終極目標。過于冗余的算力如果不能轉化為顯著的體驗提升，反而會成為續航和成本的負擔。

自動駕駛算力的爆發式增長也會對環境產生影響，如果全球范圍內的大型車隊都配備高功耗的計算平臺，其產生的溫室氣體排放量將不容小覷。就有一些研究指出，如果未來有十億輛自動駕駛汽車每天行駛一小時，其計算機功耗產生的碳排放甚至可能與全球現有的數據中心總量相當。

這一背景下，開發更節能的算法和更先進的半導體制程，不僅是出于商業成本的考量，更是為了實現自動駕駛技術的可持續發展。當前，通過多傳感器融合、減少冗余計算以及優化交通流管理，自動駕駛系統在某些情況下可以抵消一部分自身功耗帶來的負面影響，實現整體能效的提升。

數據驅動時代的云端算力與端到端演進

隨著自動駕駛技術進入端到端大模型時代，算力的競爭賽道也在發生改變。所謂的端到端，是指通過一個單一的深度學習模型，直接將傳感器的圖像信號轉化為車輛的控制信號。

這種架構不僅代表了自動駕駛從代碼驅動向數據驅動的轉變，更對算力提出了全生命周期的需求。在這一階段，算力不再局限于車端，更大量地向云端智算中心傾斜。云端算力負責消化從全球車輛收集回來的千萬級駕駛數據，通過不斷的模擬與訓練，讓模型像人類一樣掌握處理復雜極端場景的能力。

行業普遍認為端到端千卡是門檻，萬卡是入場券，沒有萬卡以上的計算規模，很難在端到端技術的競爭中保持第一梯隊。小鵬汽車自動駕駛負責人李力耘透露，小鵬已建成國內汽車行業首個萬卡智算集群，算力儲備達到10 EFLOPS，集群利用率常年高達90%以上，從云到端的全鏈路迭代周期可達平均5天一次。小鵬用于訓練基座模型的視頻數據量高達2000萬clips，這一數字在2026年將增加到2億clips。

圖片源自：網絡

此時，云端的算力規模直接決定了算法迭代的頻率和天花板的高度。在云端，算力的競賽已經演變為一場資金與資源的競爭。進入2026年，自動駕駛規則模塊化的小模型時代已經結束，下半場是大模型即物理世界的基座模型。

為了訓練千億參數級別的自動駕駛模型，頭部企業正在建立擁有數萬張高性能GPU的計算集群。這種超大規模的計算資源能夠模擬出人類駕駛一輩子都難以遇到的罕見工況，并讓模型在短時間內完成學習。

而在車端，端到端模型雖然能夠減少對高精地圖的依賴并處理更復雜的交互，但其推理過程的黑盒特性和計算負載仍然是一個挑戰。為了確保安全，許多車企采用了遞進式的演進策略，從感知的端到端逐步過渡到全流程的端到端，同時在車端保留必要的計算冗余作為安全守護。

值得關注的是，端到端時代產業界對于算力需求的判斷也在持續分化。面向L3、L4級自動駕駛，車端算力需求仍將顯著攀升。車百會理事長張永偉預計，2026年起伴隨世界模型及L3上車，車端算力將快速突破1000TOPS；至2028年，L3/L4量產或推動算力需求達2000TOPS以上。

圖片源自：網絡

黑芝麻智能創始人兼CEO單記章則指出，智能汽車的底層邏輯正從功能驅動邁向物理AI驅動，VLA模型配合世界模型將成為高階智能駕駛的最佳解決方案，世界模型可以推演未來5至10秒內各個目標的交互，大幅提升駕駛水平。而地平線創始人余凱則給出了更長周期的時間表，2028年行業實現100%脫手駕駛，2030年進入L4區間，2035年進入睡著開的終局。

在產業實踐中，算力的普惠化正在加速推進。輕舟智航基于地平線單征程6M芯片（僅128TOPS）的城市NOA方案已實現量產上車，方案驗證了用更小算力承載高水平城市NOA的可行性。卓馭科技更進一步，推出7V+32TOPS芯片組合方案，目標讓售價10萬元以下的A0級電動車也能標配智能輔助駕駛功能。

在算力供給端，英偉達Thor芯片（單顆2000TOPS）已與比亞迪、理想、極氪、小米等車企達成合作并進入量產階段，小馬智行更基于雙Thor配置推出算力高達4000 FP4 TFLOPS的下一代L4級自動駕駛域控制器，加速Robotaxi的大規模商業化部署。黑芝麻智能華山A2000家族覆蓋200TOPS至1000TOPS全場景算力，其創始人單記章透露2026年芯片出貨量將遠超千萬顆。

最后的話

未來，自動駕駛的算力需求仍將保持增長，但其形態將趨于理性和多元。算力的增長不再是單純追求數值的領先，而是向著更精準的業務場景收斂。未來的汽車將是一個移動的智能終端，其算力分配將實現車端與云端的動態平衡，車端算力負責實時決策與安全兜底，追求極速響應與極致能效；云端算力負責深度學習與知識進化，追求規模效應與模型涌現。

只有當算力、算法與數據這三者達成深度的協同平衡，自動駕駛才能真正走出實驗室，成為每一個普通消費者都能享受到、且用得起的安全出行方案。算力作為這項技術的數字引擎，其最終價值在于將復雜隱藏在底層，留給用戶簡單、自然且可靠的駕駛體驗。

-- END --

原文標題 : 從堆算力到求高效，智駕算力真的越高越好嗎？