成人免费午夜精品一区二区-亚洲视频在线观看久久-国产原创自拍看在线视频-这里只有精品自拍偷拍亚洲色图-亚洲变态另类色图天堂网-国产欧美日韩亚洲一区-国产精品自拍35页-男人插入女人下面的真实视频-蜜桃臀一区二区三区精品视频

訂閱
糾錯
加入自媒體

智駕定型之戰(zhàn):一文看透自動駕駛“端到端”的底層邏輯與架構(gòu)演進

最近的GTC 2026不管是主機廠的理想、小米、吉利千里科技還是輔助駕駛供應商們元戎、大疆卓馭、文遠都在GTC分享了他們對于自動駕駛算法的研究和應用。

對于自動駕駛算法101高階的關(guān)鍵詞無非三個“端到端(End-to-End)”、“世界模型”、“VLA”。這三個詞基本上預示自動駕駛算法路線算是統(tǒng)一確立。

所以,Vehicle將基于本次GTC 2026 內(nèi)容整理這些算法的邏輯和架構(gòu),幫大家看懂當前營銷話術(shù)拒絕忽悠,或著入門了解自動駕駛算法。

首先是“端到端”其實中國輔助駕駛從特斯拉在2024年年初推出FSD V12時候,就開始喊“我們也端到端了”。

但發(fā)展到2026年的現(xiàn)在,不少人會發(fā)現(xiàn)過去的輔助駕駛總讓人覺得像個“新手”,動不動就畫龍、急剎、遇到修路就懵圈?而現(xiàn)在的系統(tǒng)卻越來越像個老司機?這背后的核心秘密,就是端到端算法的全面普及。

今天,沒有枯燥的數(shù)學公式,而是用最直白的方式,把這個智駕圈最火的“黑科技”一次性講透。

一、 什么是自動駕駛的端到端(End-to-End, E2E)算法?

自動駕駛端到端大模型,是指基于大規(guī)模數(shù)據(jù)訓練的神經(jīng)網(wǎng)絡系統(tǒng),直接從多模態(tài)傳感器輸入(如攝像頭、激光雷達等),通過統(tǒng)一模型進行表征學習與決策推理,輸出車輛控制指令(如轉(zhuǎn)向、加速、制動)

本質(zhì)上,它是一種將自動駕駛?cè)蝿找暈檩斎氲捷敵龅恼w映射問題的模型范式,你也可以認為他們共享某種語言進行信息傳遞。所以,談論端到端的時候常常就看到如下一個大圖,一個大模型,光子進去動作出來。

從架構(gòu)來說,常見的端到端就是一個視覺編碼器(Vision Encoder)加動作解碼器(Action Decoder)的架構(gòu)。端到端具備快速直覺的響應特點,一般是通過模仿學習,能更好的學到這種擬人化的體驗。

這里就給端到端接下來的發(fā)展埋個伏筆,傳統(tǒng)端到端的弊端就是必須要見過的東西,沒見過的就蒙圈,所以一直要給他喂長尾數(shù)據(jù),那何時是個頭?

所以后面就基于端到端的基礎(chǔ)上發(fā)展出VLA、世界模型等概念。發(fā)展出現(xiàn)在所謂的L2++算法可以拓展到L4的說法,因為他可以推理沒見過的,可以自我學習。

不管如何,自動駕駛算法端到端的這種演進背后的行業(yè)共識可以總結(jié)為:

自動駕駛行業(yè)徹底摒棄基于規(guī)則的規(guī)劃邏輯和人工設計的特征表達,因為人類世界真的太復雜了,即使是交通駕駛看似單一的任務都有規(guī)則寫不完的場景。

基于這個端到端的邏輯思維,可以創(chuàng)新算法應用,拓展出更加類人的算法思維可以拓展更好的產(chǎn)品形態(tài)。那“端到端”喊了這么久,“端到端”到底有哪些種類?又經(jīng)歷了哪些迭代?

二、 端到端算法的發(fā)展與種類

雖然我們常在宣傳上聽到端到端,但,其實自動駕駛端到端架構(gòu)在國內(nèi)業(yè)內(nèi)經(jīng)歷了三種核心形態(tài)的演進。

最先開始的是,兩段式端到端雖然被稱為端到端(通常指整個網(wǎng)絡可以聯(lián)合求導和訓練),但它在結(jié)構(gòu)上依然保留了傳統(tǒng)的“感知-規(guī)劃”兩段式串聯(lián)邏輯。當然沒有人說自己的算法是兩段式端到端,但是從2025年地平線喊一段式端到端之前,基本上不管是小鵬、Momenta叫的出名的量產(chǎn)端到端基本上都可能是兩段式。

他的算法組合架構(gòu):傳感器數(shù)據(jù) -> 感知編碼器 -> 感知解碼器 -> 輸出顯式人能看懂的結(jié)果(如障礙物 Object、車道線 Lane 等) -> 規(guī)劃模塊 -> 自車軌跡。

架構(gòu)特點:規(guī)劃模塊完全依賴感知網(wǎng)絡吐出的顯式物理級結(jié)果(也就是人類能看懂的目標級信息)來進行決策。

優(yōu)劣勢:優(yōu)勢是可解釋性強,出了事故或者畫龍,很容易排查是感知漏檢了還是規(guī)劃寫錯了;劣勢是存在嚴重的信息損耗(Information Loss),三維世界被壓縮成了幾個特定的標簽(比如只輸出框和類別),很多對駕駛有用的隱含信息(如行人的微小肢體動作、路面濕滑程度的視覺特征)無法傳遞給規(guī)劃模塊。

有人表示,其實嚴格上來講,兩段式端到端應該并不是端到端,只過不國內(nèi)為了追求營銷效果硬貼上的。

帶顯式感知的一段式端到端,這是一種過渡形態(tài),或者是目前許多追求安全與性能平衡的智駕團隊采用的混合架構(gòu)。

他的算法組合架構(gòu):和兩段式的算法組合一致,不過,它的規(guī)劃模塊接收兩路輸入:一路來源于感知編碼器的底層高維特征(Features),另一路來源于感知解碼器的顯式結(jié)果(Object/Lane...)。

架構(gòu)特點:規(guī)劃模塊不僅能“看”到傳統(tǒng)的障礙物和車道線,還能直接“看”到未經(jīng)壓縮的底層神經(jīng)網(wǎng)絡特征。

優(yōu)劣勢:既保留了顯式感知帶來的結(jié)構(gòu)化約束(作為一種安全冗余或輔助監(jiān)督),又引入了豐富的隱式特征,打破了傳統(tǒng)兩段式的信息傳遞瓶頸。

目前這種應該是當前國內(nèi)端到端的主流形態(tài),一段式端到端輸出的軌跡添加結(jié)合顯式感知元素的后處理,大家唯一的區(qū)別是后處理多與少的問題,如果一段式做的不好,后處理給多了,不擬人,給少了出事故。

終極端到端,這是最“純粹”的端到端形態(tài),也是目前業(yè)界探索的最終極方案(類似于 Tesla FSD V12 的理念)。

他的算法組合架構(gòu):傳感器數(shù)據(jù) -> 感知編碼器(或基礎(chǔ)模型 Foundation Model)-> 視覺 Token(Visual Tokens) -> 規(guī)劃模塊 -> 自車軌跡。

架構(gòu)特點:完全拋棄顯式感知輸入,規(guī)劃模塊直接消化高維的“視覺 Token”,跳過了人類定義的 Object/Lane 概念。此時,感知解碼器(Perception Decoder for HMI)被剝離,它僅僅是為了在車機屏幕上渲染給駕駛員看(HMI),完全不參與車輛的實際駕駛決策。

優(yōu)劣勢:優(yōu)勢是真正實現(xiàn)了“無損”的信息傳遞,理論上限極高,模型完全通過數(shù)據(jù)學習如何直接從像素映射到動作。劣勢是典型的“黑盒(Blackbox)”,可解釋性極差,如果車做了一個奇怪的動作,工程師很難像過去那樣通過 debug 代碼來定位和修復問題,只能靠喂更多針對性的數(shù)據(jù)來糾正。

這三種端到端的的核心差異在于規(guī)劃模塊輸入的信息維度不同,以及顯式感知在整個系統(tǒng)中所占的權(quán)重。

發(fā)展本質(zhì)上是一個從“模塊化殘留”向“純粹數(shù)據(jù)驅(qū)動黑盒”演進的過程,原則上的發(fā)展趨勢是從上往下?lián)p失的信息越來越少。

三、 拆解端到端算法:感知的骨干網(wǎng)絡與感知解碼器

如上文講到的,端到端算法里面是由非常多不同的模塊組合而成,他們配合將傳感器捕獲的信息,盡可能保留進行傳遞,當然這里傳遞的東西可以統(tǒng)稱為視覺信息的Tokens,最終讓執(zhí)行端精準執(zhí)行。

那么里面有些什么模塊?這些模塊都是一些什么樣的算法?

其實自動駕駛感知系統(tǒng)處理流程通常是模塊化的接力賽,每個模塊負責不同,通過Tokens進行傳遞。

第一棒:主干網(wǎng)絡(Backbone)——負責“打地基”車上的多個攝像頭拍下原始的 2D 畫面后,首先交由 Backbone 處理,將原始像素點轉(zhuǎn)化為包含物體邊緣、紋理、顏色等高層語義信息的 2D 特征圖(Feature Maps),這部分常被稱為“視覺分詞器”。常見的主干網(wǎng)絡分為兩類:

基于 CNN(卷積神經(jīng)網(wǎng)絡)的 Backbone:例如 ResNet 系列(如 ResNet-50, ResNet-101),是行業(yè)內(nèi)最經(jīng)典、最常用的打底網(wǎng)絡,算力消耗相對可控;還有 VovNet,其特征融合效率很高,是很多頭部智駕團隊在打榜或追求極致性能時非常喜歡的 Backbone。

基于 Transformer 的 Backbone:如 ViT (Vision Transformer) 或 Swin Transformer,具備全局注意力的特性,能提取出更優(yōu)秀的全局上下文特征,是大模型時代的主流。工程師優(yōu)化 Backbone 意味著換成感受野更大的版本,以提供高質(zhì)量素材供后續(xù)進行 3D 目標檢測,這個當前的主流算法。

第二棒:感知框架(Neck/Head)——負責“建高樓”像 PETR 或 Sparse4D 這樣的算法負責將基本的圖像特征轉(zhuǎn)化為具有 3D 甚至 4D(含時間)空間和語義理解的深度特征,從而輸入到整個網(wǎng)絡架構(gòu)中。

PETR(Position Embedding Transformation - 位置嵌入變換):由于攝像頭拍到的是 2D 圖像,自動駕駛需要知道物體在 3D 世界的具體位置,PETR 利用 3D 位置嵌入技術(shù),直接將 3D 空間位置信息“融合”到 2D Backbone 輸出的圖像特征中。

Sparse 4D:這是一種基于查詢(Query-based)的稀疏感知方法,不顯式地將全圖轉(zhuǎn)為 3D,而是通過在特征空間中迭代地更新少量的“查詢點”(Queries)來逐漸聚焦和理解環(huán)境中的關(guān)鍵目標,極其高效地完成 3D 檢測、追蹤和建圖。

第三棒:感知解碼器(Perception Decoder)緊接在感知編碼器之后,任務是從特征中“解碼”出最終感知結(jié)果(車在哪、前方有無障礙等)。分為兩大流派:

稀疏頭(Sparse Head / Query-based 方案):核心邏輯是“按圖索驥”。它預先設定一組固定數(shù)量的“查詢向量”(Queries,比如 900 個虛擬探測點),投放到特征圖里主動尋找目標,匹配成功則直接輸出目標的 3D 邊界框。代表算法有 DETR3D、PETR、Sparse4D 系列。優(yōu)點是極其節(jié)省算力(跳過空白區(qū)域)且擅長追蹤動態(tài)目標(如汽車、行人),缺點是無法很好地描述不規(guī)則物體(如碎磚塊、異形路障、連綿花壇)。

稠密頭(Dense Head / Dense BEV 方案):核心邏輯是“地毯式搜索”。把車輛周圍 3D 空間強制劃分為密密麻麻的網(wǎng)格(例如 20*20*20 cm的立方格),對每一個網(wǎng)格進行逐一掃描和全量卷積計算。代表算法有 BEVDepth、Occupancy Network(占據(jù)網(wǎng)絡)。優(yōu)點是具備無死角的安全底線(只要占據(jù)空間就能掃出異形障礙物)且擅長靜態(tài)環(huán)境感知(車道線、可行駛區(qū)域),缺點是極其消耗算力,需要在大量無效的“空氣網(wǎng)格”上花費計算資源。

以上基本上就是當前端到端感知算法的骨干模塊了,他和規(guī)劃模塊的信息傳遞是繼續(xù)用token還是提取出了人類熟悉物體,就決定了這個算法是一段式還是兩段式端到端。

四、 拆解端到端算法:生成動作的規(guī)劃模塊(Planning)

規(guī)劃模塊(Planning Decoder)的核心任務是根據(jù)感知特征生成車輛未來幾秒的行駛軌跡(坐標點、速度和航向角)供執(zhí)行機構(gòu)執(zhí)行。

目前主流有三大算法流派:

Reg(Regression / 回歸算法):核心思路是“一步到位”的全局預測。模型看一眼當前環(huán)境,一次性、同時輸出未來所有的軌跡點坐標(例如 $t_1, t_2, t_3$ 時刻的 $x,y$ 坐標),就像射箭一樣軌跡瞬間決定。

優(yōu)缺點:優(yōu)點是計算速度極快,延遲極低,非常適合車端部署。缺點是難以處理“多解”情況(多模態(tài)問題),例如遇到障礙物既能左繞也能右繞時,簡單的回歸算法會試圖“找平均”,畫出一條筆直撞向障礙物的致命軌跡。

AR(Autoregressive / 自回歸算法):核心思路是“走一步,看一步”的串行預測,類似大語言模型生成文字。模型預測出 $t_1$ 的點后,將其作為已知條件喂回給模型去預測 $t_2$,如同“摸著石頭過河”或“詞語接龍”。

優(yōu)缺點:優(yōu)點是符合時間序列因果邏輯,動作連貫,且能很好處理“多解”問題(每一步可輸出概率分布供采樣)。缺點是會產(chǎn)生誤差累積(Error Accumulation),“一步錯,步步錯”,且由于必須串行計算,生成速度較慢。

Diffusion(擴散模型):核心思路是“整體打磨”的迭代去噪,是目前最前沿且備受理想、小米等追捧的方案。它在路面上生成隨機毫無邏輯的“噪音軌跡”,然后結(jié)合環(huán)境特征,在多個步驟中一點一點地修正,像雕刻一樣把粗糙的石頭削去多余部分,最后呈現(xiàn)完美的軌跡。

優(yōu)缺點:優(yōu)點是完美解決“多解”博弈(能同時雕刻出截然不同但都合理的軌跡并挑出最好的),且生成的軌跡平順、極具人類質(zhì)感,能很好滿足車輛動力學約束等物理規(guī)律。缺點是計算量大,需要反復迭代,通常需要采用并行解碼(Parallel Decoding)等技術(shù)進行加速以實現(xiàn)上車。

總結(jié)

有了這種端到端的算法模塊組合,從傳感器的輸入進來的信息,都會被編碼成Token在各個模塊中進行傳遞,這樣盡最大化的減少人為的信息傳遞篩選,之后被編碼成為動作執(zhí)行。

而,訓練過程也更加簡單了,直接將數(shù)據(jù)喂給模型訓練,模型根據(jù)數(shù)據(jù)形成所謂的模型參數(shù)量,參數(shù)量可以簡單理解成“知識”量,知識量更多更細那么對應的模型理論上就越好,要承載更大的參數(shù)量那么必須更大的算力芯片。

所以,端到端算法的構(gòu)建完成,必定會卷模型參數(shù)量,卷芯片算力,卷模型應用創(chuàng)新度比如說世界模型、VLA等。

最后,其實算法是自動駕駛重要的工具,但是自動駕駛產(chǎn)品卻是與大家應用場景交互深刻的地方,有對自動駕駛產(chǎn)品感興趣的朋友可以點擊Vehicle聯(lián)合機械工業(yè)出版出品的《自動駕駛產(chǎn)品經(jīng)理》一書,詳細介紹自動駕駛產(chǎn)品。

參考資料以及圖片

VLA World Model for Autonomous Driving pdf- 大疆卓馭Xiaozhi Chen

UnleashingtheOmni-ParadigmforNext-GenAutonomousDriving with UnifiedVLAModels pdf - 理想汽車詹錕

Redefining the Boundaries of Autonomous Driving with Foundation Model pdf - 元戎曹通易

*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-

       原文標題 : 智駕定型之戰(zhàn):一文看透自動駕駛“端到端”的底層邏輯與架構(gòu)演進

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號