英偉達(dá) Alpamayo:基于推理的自動(dòng)駕駛大模型設(shè)計(jì)與量產(chǎn)部署全解析
GTC 2026 上英偉達(dá)對(duì)其開源的 Alpamayo VLA模型進(jìn)行了進(jìn)一步的闡述。其中Marco Pavone代表英偉達(dá)的研究團(tuán)隊(duì)對(duì)就Alpamayo的模型設(shè)計(jì)和最新的因果鏈進(jìn)行了分享,Patrick Liu曾今吳新宙在小鵬的老部下后來(lái)也來(lái)到英偉達(dá),本次他代表量產(chǎn)端對(duì)Alpamayo落地量產(chǎn)的一些經(jīng)驗(yàn)方法進(jìn)行了一些分享。
本文基于兩位的演講內(nèi)容,對(duì)Alpamayo的模型設(shè)計(jì)和量產(chǎn)經(jīng)驗(yàn)進(jìn)行總結(jié)和分享。
我們之前文章《智駕定型之戰(zhàn):一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)》也分享過(guò)在自動(dòng)駕駛的發(fā)展歷程中,如何讓AI不僅能“看”和“開”,還能像人類一樣“思考”和“解釋”,是經(jīng)歷了端到端算法普及之后的第二個(gè)突破點(diǎn)。
英偉達(dá)推出的 Alpamayo的亮點(diǎn)就是具有推理能力。本次演講中Marco Pavone 表示Alpamayo 是一個(gè)100億(10B)參數(shù)的端到端、基于推理的視覺(jué)語(yǔ)言動(dòng)作模型(VLA),他是基于英偉達(dá)基礎(chǔ)模型Cosmos Reason構(gòu)建的。
第一部分:模型設(shè)計(jì),讓 AI 學(xué)會(huì)“因果推理”與“知行合一”
和所有VLA模型類似,Alpamayo 1 接收多攝像頭圖像、用戶命令和導(dǎo)航指引,并輸出三個(gè)關(guān)鍵結(jié)果:推理軌跡、元?jiǎng)幼骱婉{駛軌跡。
這個(gè)模型算法的第一大亮點(diǎn)是“具體推理” --產(chǎn)生類似于人類推理的軌跡,將空間理解和常識(shí)推理與物理動(dòng)作聯(lián)系起來(lái),為了構(gòu)建這種“具體推理”能力,英偉達(dá)Alpamayo的采用多階段訓(xùn)練流水線:
通用推理:從 Cosmos Reason 開始,利用互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練一般推理能力。這個(gè)基本上是基礎(chǔ)模型訓(xùn)練的范疇。
軌跡預(yù)訓(xùn)練:在海量駕駛數(shù)據(jù)上預(yù)訓(xùn)練,賦予模型自動(dòng)駕駛的軌跡生成能力。一般從通用基礎(chǔ)模型到專業(yè)自動(dòng)駕駛模型的第一步訓(xùn)練,就是專門的駕駛數(shù)據(jù)訓(xùn)練。
監(jiān)督微調(diào)(SFT):利用自動(dòng)標(biāo)注的駕駛相關(guān)推理軌跡進(jìn)行微調(diào),以引出顯式的推理能力。這一步主要是賦予VLA模型基于語(yǔ)言的顯式推理的能力。
強(qiáng)化學(xué)習(xí)(RL):在 Cosmos生產(chǎn)和修改的場(chǎng)景的 RL 基礎(chǔ)上,改善極具挑戰(zhàn)性情況下的推理,并促進(jìn)各輸出模態(tài)之間的對(duì)齊。
經(jīng)過(guò)以上步驟一個(gè)VLA大模型基本完成,我們之前文章《吳新宙帶領(lǐng)英偉達(dá)沖刺自動(dòng)駕駛L4背后的VLA大模型算法》有詳細(xì)介紹。
最后模型上車采取知識(shí)蒸餾:將龐大的能力壓縮到適合車端部署的模型中。
整個(gè)訓(xùn)練過(guò)程,有如下難點(diǎn):
1. 如何突破純文本思維鏈(COT)自動(dòng)標(biāo)注的局限:因果鏈自動(dòng)標(biāo)注在 SFT 階段,最大的挑戰(zhàn)是如何大規(guī)模生成高質(zhì)量的推理標(biāo)簽。傳統(tǒng)的文本思維鏈(COT)自動(dòng)標(biāo)注存在三大致命缺陷:
一是因果混淆,推理軌跡可能會(huì)泄露未來(lái)信息,比如提前說(shuō)“銀色SUV將在以后切入”;
二是行為描述模糊,無(wú)法給出具體的駕駛操作;
三是膚淺推理,描述缺乏與本車行為直接因果聯(lián)系的上下文。

為了解決這些問(wèn)題,英偉達(dá)采用“因果鏈自動(dòng)標(biāo)注流水線”的方式,來(lái)?yè)羝七@個(gè)痛點(diǎn):
錨定關(guān)鍵幀:將推理生成嚴(yán)格錨定在關(guān)鍵決策時(shí)刻(如交通燈變綠瞬間),確保推理過(guò)程只包含該關(guān)鍵幀之前的因素,杜絕未來(lái)信息泄露。
封閉決策詞匯表:將決策分為縱向和橫向類型,并建立明確的詞匯表,確保使用精確術(shù)語(yǔ)描述行為,消除模糊性。
因果鏈模板:引導(dǎo)模型確保每個(gè)語(yǔ)句都符合因果鏈邏輯,阻止膚淺的推理。 
英偉達(dá)的Marco Pavone表示通過(guò)從非結(jié)構(gòu)化思維鏈切換到結(jié)構(gòu)化因果鏈的方法,給顯式推理帶來(lái)了驚人的121% 的準(zhǔn)確性提升。模型在處理捕捉復(fù)雜運(yùn)動(dòng)行為和分布外視覺(jué)上下文的“長(zhǎng)尾場(chǎng)景”時(shí),軌跡位移(平均ADE)減少了約12%,證明推理在復(fù)雜的邊緣場(chǎng)景中收益巨大。
2. 消除“具身不一致”:強(qiáng)化學(xué)習(xí)后訓(xùn)練對(duì)齊模型會(huì)推理了,但如果“想的是向左,開的卻是向右”怎么辦?這種思維鏈推理與模型直接輸出的行動(dòng)之間的潛在差異被稱為“具身不一致”(因?yàn)閯?dòng)作生成往往只是模仿訓(xùn)練數(shù)據(jù),并未真正理解背后原因)。 
為此,團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)(RL),將可驗(yàn)證的安全獎(jiǎng)勵(lì)、教師模型反饋以及人類偏好聚合到一個(gè)統(tǒng)一的獎(jiǎng)勵(lì)模型中。經(jīng)過(guò)對(duì)齊后,模型生成的動(dòng)作變得更符合相應(yīng)的推理軌跡,不忠實(shí)的行動(dòng)減少了近 60%。例如,當(dāng)模型推斷要減速停止后再加速時(shí),對(duì)齊后的模型會(huì)嚴(yán)格遵循完整的因果序列,同時(shí)顯著降低了接近碰撞率。
3. 前沿探索:從文本推理走向“潛在空間推理”雖然語(yǔ)言文本易于解釋,但在 token 數(shù)量和推理時(shí)間上并不是最高效的表示,這里算點(diǎn)出了VLA中L真的很耗token,這也是真正VLA當(dāng)前工程落地的問(wèn)題。英偉達(dá)正在探索在連續(xù)的潛在空間(Latent Space)中進(jìn)行推理。這不僅能帶來(lái)2 到 4 倍的推理加速,還能使后訓(xùn)練優(yōu)化更加平滑。在復(fù)雜的局部可觀察場(chǎng)景(如應(yīng)對(duì)隨時(shí)可能過(guò)馬路的行人)中,模型甚至展現(xiàn)出了反事實(shí)推理和自我調(diào)節(jié)“思考率”的能力——場(chǎng)景越難,它就會(huì)花越多時(shí)間進(jìn)行推演更新,從而實(shí)現(xiàn)更好的駕駛性能。
這個(gè)就是隱式推理的方法,或者有人叫他世界模型,理想汽車在本次GTC 2026上的演講也分享了,他們下一代MindVLA也將采用,具體可以看我們文章《理想汽車下一代基座模型 Mind VLA-o1的架構(gòu)和算法應(yīng)用解析》。
第二部分:量產(chǎn)部署——跨越交互與實(shí)時(shí)計(jì)算的物理瓶頸
現(xiàn)實(shí)中,要將這樣一個(gè)強(qiáng)大的研究級(jí)推理模型真正部署到實(shí)車生產(chǎn)中,需要克服系統(tǒng)交互、數(shù)據(jù)質(zhì)量以及極高實(shí)時(shí)性的三大支柱挑戰(zhàn),因?yàn)檐嚩说乃懔s束擺在前面。
量產(chǎn)中如何解決呢?英偉達(dá)的Patrick Liu就這些問(wèn)題,給出了他們的答案:
1. 多任務(wù)產(chǎn)品功能與“模式專家(Mode Expert)”架構(gòu)為了實(shí)現(xiàn)L4級(jí)別既能自動(dòng)駕駛,又具備互動(dòng)和可解釋性的體驗(yàn),量產(chǎn)模型在自主推理之外,新增了兩種模式:
用戶問(wèn)答模式:為黑盒神經(jīng)網(wǎng)絡(luò)增加了自然語(yǔ)言界面,用戶可以問(wèn)“你在做什么”、“為什么要慢下來(lái)”,極大增強(qiáng)了信任度。
用戶控制模式:用戶可以直接下達(dá)“靠邊停車”、“下一條出口下高速”、“稍微快一點(diǎn)”等命令。
為了支撐這三種模式,系統(tǒng)層面引入了一個(gè)核心模塊——模式專家(Mode Expert)。它承擔(dān)兩大職責(zé):
一是保護(hù)性攔截,如果用戶下達(dá)有害指令(如“撞上那個(gè)垃圾桶”),模式專家會(huì)先發(fā)制人地拒絕,根本不會(huì)傳遞給模型;
二是無(wú)縫路由,它將到底該執(zhí)行哪種模式的決策編碼為一個(gè)“極其微小的單一模態(tài) Token”強(qiáng)制輸入給模型。
這種MOE的設(shè)計(jì)避免了生成額外 Token 帶來(lái)的延遲,并且允許模型在必要時(shí)推翻原有的導(dǎo)航路線以服從用戶的控制指令。MOE的方法Deepseek在過(guò)去兩年中已經(jīng)證明了其同等算力下的高效性。
2. 生產(chǎn)級(jí)別的數(shù)據(jù)流水線為了產(chǎn)生高質(zhì)量、行動(dòng)高度一致的“C數(shù)據(jù)集”,研發(fā)團(tuán)隊(duì)花費(fèi)了100多次迭代來(lái)平衡云端與車端的復(fù)雜數(shù)據(jù)混合結(jié)構(gòu)。除了依賴視覺(jué)語(yǔ)言模型(VLM)和經(jīng)典行為計(jì)劃堆棧進(jìn)行自動(dòng)標(biāo)記并使用規(guī)則過(guò)濾器清理數(shù)據(jù)外,整個(gè)流水線中必須有“人機(jī)在環(huán)(Human-in-the-loop)的 QA”來(lái)嚴(yán)格審核所有標(biāo)簽的準(zhǔn)確性和真實(shí)性。
3. 實(shí)時(shí)部署:硬核的 4 倍實(shí)時(shí)加速技術(shù)這是量產(chǎn)最關(guān)鍵的一環(huán)。車端的重規(guī)劃預(yù)算是 100 毫秒(即 10 fps),而原始未優(yōu)化的模型延遲超出了預(yù)算大約 4 倍。為了在嚴(yán)苛預(yù)算內(nèi)生成所有推理和軌跡 Token,團(tuán)隊(duì)采用了雙管齊下的技術(shù)突破:
語(yǔ)言端(推測(cè)解碼):對(duì)大語(yǔ)言模型使用了推測(cè)解碼(Speculative Decoding)技術(shù)。利用一個(gè)小型的“草稿模型”快速生成可能的 Token,再交由主模型進(jìn)行并行驗(yàn)證。因?yàn)轵?yàn)證并行 Token 遠(yuǎn)比直接生成快,這實(shí)現(xiàn)了 2 到 4 倍的加速。
視覺(jué)端(稀疏注意力與定制預(yù)訓(xùn)練):將密集的注意力機(jī)制分解為多層稀疏注意力,從而在視覺(jué)處理上獲得了約四倍的加速。但由于這種架構(gòu)改變無(wú)法直接使用 Dinov2 等預(yù)訓(xùn)練的密集模型,團(tuán)隊(duì)使用了定制的預(yù)訓(xùn)練流水線(如 Nvidia 的 Radio)來(lái)訓(xùn)練專門適應(yīng)新架構(gòu)的快速視覺(jué)模型。
最終特征對(duì)齊:視覺(jué)端的架構(gòu)改變打破了微調(diào)階段語(yǔ)言和視覺(jué)原本的協(xié)同理解。因此,在多階段訓(xùn)練配方中,團(tuán)隊(duì)被迫增加了一個(gè)額外的對(duì)齊階段,將這些特征重新帶回,確保了在極致壓縮延遲的情況下,依然不降低推理和軌跡生成的質(zhì)量。
結(jié)合上述針對(duì)模型設(shè)計(jì)的底層重構(gòu)以及量產(chǎn)部署的極限工程優(yōu)化,英偉達(dá)成功地將 Alpamayo 1 從前沿研究帶入了真實(shí)的汽車生產(chǎn)部署中。
最后,英偉達(dá)在本次GTC 2026宣布發(fā)布新的 Alpamayo 1.5 模型
最新發(fā)布的 Alpamayo 1.5 模型在保持原有 100 億參數(shù)規(guī)模的基礎(chǔ)上,主要新增了導(dǎo)航和語(yǔ)言對(duì)話可以控制輔助駕駛的功能。這個(gè)算是非常難的一點(diǎn)。當(dāng)然除了這些這個(gè)公開模型還增加了專門的虛擬仿真套件以及上文提到的CoC自動(dòng)標(biāo)簽、推理標(biāo)簽等數(shù)據(jù)集。
這些新功能的加入,進(jìn)一步提升了該模型在實(shí)際應(yīng)用中的靈活性和可控性,算是公版的L4安卓軟件了,可以幫助很多傳統(tǒng)主機(jī)廠開啟自研模式,畢竟互聯(lián)網(wǎng)公司很多也是這么開啟的。
最后,其實(shí)算法是自動(dòng)駕駛重要的工具,但是自動(dòng)駕駛產(chǎn)品卻是與大家應(yīng)用場(chǎng)景交互最深刻的地方,有對(duì)自動(dòng)駕駛產(chǎn)品感興趣的朋友可以點(diǎn)擊Vehicle聯(lián)合機(jī)械工業(yè)出版出品的《自動(dòng)駕駛產(chǎn)品經(jīng)理》一書,詳細(xì)介紹自動(dòng)駕駛產(chǎn)品和運(yùn)營(yíng)的全流程。
參考資料以及圖片
From Research to Production: How Alpamayo Accelerates Autonomous Vehicle Development - 英偉達(dá)*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-
原文標(biāo)題 : 英偉達(dá) Alpamayo:基于推理的自動(dòng)駕駛大模型設(shè)計(jì)與量產(chǎn)部署全解析
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





