元戎啟行的 40B VLA 自動(dòng)駕駛基座模型和方法論
元戎作為中國(guó)輔助駕駛/自動(dòng)駕駛算法供應(yīng)商的后起之秀,在這兩年來(lái)量產(chǎn)車(chē)輛大幅度上升,擁有長(zhǎng)城、吉利、甚至傳言拿下了新勢(shì)力零跑的業(yè)務(wù)。而且元戎也是比較早喊“VLA”甚至量產(chǎn)"VLA"的供應(yīng)商。
所以,算是有量產(chǎn)也有前瞻的自動(dòng)駕駛解決方案提供商,本次GTC 2026 元戎的CTO 曹通易做了名為《Redefining the Boundaries of Autonomous Driving with Foundation Model》的演講,分享了其基于Foundation model基模的VLA方法和理論。

本文通過(guò)演講和行業(yè)知識(shí)分享下此次演講的核心內(nèi)容和亮點(diǎn)。
元戎啟行(DeepRoute.ai)解決自動(dòng)駕駛,甚至走向 L5 級(jí)別的核心思路,是堅(jiān)信“Scaling Law(擴(kuò)展定律)”,通過(guò)構(gòu)建統(tǒng)一的基座大模型來(lái)驅(qū)動(dòng)模型尺寸和數(shù)據(jù)規(guī)模的同步爆發(fā)。
這里也看出目前行業(yè)內(nèi)對(duì)當(dāng)前端到端發(fā)展起來(lái)的各種技術(shù)比較自信,看到了自動(dòng)駕駛的曙光,目前行業(yè)的核心重點(diǎn)是,優(yōu)化算法也加大模型參數(shù)、推動(dòng)算力芯片上升、優(yōu)化工程落地。
以下是元戎其基座大模型架構(gòu)與自動(dòng)駕駛軟件方法的硬核技術(shù)亮點(diǎn):
一、 基座大模型(40B VLA)的原理與架構(gòu)技術(shù)亮點(diǎn)
元戎基于1億Gb的視頻構(gòu)建了一個(gè)參數(shù)量為 40B 的原生 VLA(視覺(jué)-語(yǔ)言-動(dòng)作)大模型, 小鵬也在去年年底表示其研發(fā)了基于2億Clips(推斷 大約10億Gb數(shù)據(jù))訓(xùn)練的72B(720億)參數(shù)超大規(guī)模模型。
元戎表示其訓(xùn)練機(jī)制和端側(cè)部署上進(jìn)行了以下底層創(chuàng)新:
1. 架構(gòu)創(chuàng)新:“三位一體”的模型角色這個(gè)大模型打破了僅作為“駕駛員”的單一設(shè)定。它在同一個(gè)模型中集成了三種能力:駕駛員、分析師以及評(píng)論員/裁判。這種能力復(fù)用不僅讓認(rèn)知和場(chǎng)景理解得以共享,還能有效提升駕駛?cè)蝿?wù)本身的性能。解讀就是這個(gè)模型能看懂視頻等傳感器輸入數(shù)據(jù)流,推理和分析,最終給出結(jié)論好壞。
2. 預(yù)訓(xùn)練(Pre-train)原理突破:從“軌跡監(jiān)督”轉(zhuǎn)向“視頻預(yù)測(cè)”傳統(tǒng)的端到端模型通常依賴駕駛軌跡進(jìn)行監(jiān)督訓(xùn)練,但這存在極大的數(shù)據(jù)浪費(fèi)——1 PB 的駕駛視頻中,軌跡數(shù)據(jù)僅占約 10 GB,數(shù)據(jù)利用率僅為 0.001%。元戎在預(yù)訓(xùn)練階段創(chuàng)新性地采用了視頻預(yù)測(cè)任務(wù)來(lái)讓模型理解世界,這意味著視頻的每一個(gè)像素都能作為監(jiān)督信號(hào),數(shù)據(jù)利用率達(dá)到 100%,從而為超大參數(shù)模型提供了極高質(zhì)量的物理世界表征。
3. 中端訓(xùn)練(Mid-train)的跨模態(tài)推理融合在掌握了對(duì)世界的理解后,模型會(huì)進(jìn)行三種核心任務(wù)的聯(lián)合訓(xùn)練:
V+A(視覺(jué)+動(dòng)作):學(xué)習(xí)常規(guī)的端到端駕駛,典型的端到端架構(gòu)。
V+A -> L(行動(dòng)后解釋?zhuān)杭せ罘治鰩熀筒门薪巧斎胍曈X(jué)和動(dòng)作序列,輸出對(duì)關(guān)鍵事件的抽象描述、行為因果解釋以及好壞評(píng)判。
V -> L+A(多模態(tài)邏輯推理):訓(xùn)練帶推理能力的司機(jī)。給定視覺(jué)輸入,利用思維鏈(CoT)讓模型先輸出關(guān)鍵事件的語(yǔ)言描述和決策邏輯,再輸出具體的駕駛軌跡。

4. 極致的車(chē)端部署優(yōu)化與量產(chǎn)蒸餾,根據(jù)GTC上曹通易的表述,目前元戎的VLA在車(chē)端可能實(shí)現(xiàn)了 10-15 Hz 的實(shí)時(shí)閉環(huán)控制(為什么實(shí)時(shí)閉環(huán)控制重要可以點(diǎn)擊我們之前文章《揭秘特斯拉 FSD 核心:端到端算法的“三大難點(diǎn)”與“獨(dú)門(mén)解法”以及對(duì)語(yǔ)音控車(chē)的想法》了解)。

元戎表示其引入了 KV Cache(歷史特征免重復(fù)計(jì)算,這個(gè)理想在本次GTC也表示采用了,具體可以看我們理想GTC 2026文章)、多 Token 預(yù)測(cè)(MTP)、量化技術(shù)以及定制化的推理引擎,將包含 1000 個(gè)視覺(jué) Token 和數(shù)十個(gè)推理 Token 的單步處理延遲嚴(yán)控在 60-85 毫秒以內(nèi)。此外,基座大模型可以根據(jù)車(chē)端芯片算力進(jìn)行靈活“蒸餾”:在 100 TOPS 平臺(tái)上部署純駕駛的 VA 模型,在 500 TOPS 平臺(tái)上即可部署帶有邏輯推理能力的 VLA 模型。
二、 自動(dòng)駕駛軟件與數(shù)據(jù)方法亮點(diǎn)
在軟件和數(shù)據(jù)工程層面,元戎徹底重構(gòu)了數(shù)據(jù)閉環(huán)和仿真系統(tǒng),解決了“無(wú)聊數(shù)據(jù)損害模型”和人工介入效率低下的行業(yè)痛點(diǎn):
1.大模型全面接管的極速數(shù)據(jù)閉環(huán)傳統(tǒng)的數(shù)據(jù)閉環(huán)(發(fā)現(xiàn)問(wèn)題、診斷、挖掘、標(biāo)注、訓(xùn)練)嚴(yán)重依賴人工或小型規(guī)則模型,一個(gè)循環(huán)往往耗時(shí) 5 天(100 小時(shí)以上)且能力無(wú)法沉淀。元戎直接利用前文提到的基座大模型(其分析師和裁判能力)接管了數(shù)據(jù)挖掘、自動(dòng)診斷、思維鏈(CoT)標(biāo)注以及動(dòng)作評(píng)分等全流程。這不僅將閉環(huán)周期從 5 天極速縮短至 12 小時(shí),更重要的是,閉環(huán)過(guò)程中產(chǎn)生的所有人工 Review 和機(jī)器標(biāo)注結(jié)果,都會(huì)沉淀為大模型中端訓(xùn)練的新養(yǎng)料,實(shí)現(xiàn) AI 能力的飛輪遞增。

2. 突破長(zhǎng)尾場(chǎng)景的數(shù)據(jù)合成技術(shù)面對(duì)現(xiàn)實(shí)中難以收集的罕見(jiàn)高危場(chǎng)景(Long-Tail Scenarios),元戎采用了先進(jìn)的生成式與合成技術(shù):
3D 重建與風(fēng)格遷移:利用 Nvidia 的 3D GUT 進(jìn)行高保真重建,并用 Cosmos 模型實(shí)現(xiàn)天氣和光照的風(fēng)格遷移,將一個(gè)白天的素材轉(zhuǎn)化為雨天或夜間的變體。
DiPIR 插入式編輯:這是元戎自研的技術(shù),能夠?qū)⑸傻?3D 行人、騎行者或動(dòng)物(如公路上突然竄出的羊)無(wú)縫插入到真實(shí)的道路視頻中,并自動(dòng)匹配光照和陰影,系統(tǒng)性地批量生成“極其危險(xiǎn)且難以捕捉”的訓(xùn)練數(shù)據(jù)。
3. 仿真環(huán)境下的強(qiáng)化學(xué)習(xí)(RL)自我進(jìn)化在仿真回測(cè)中,元戎的模型不再單純依賴人工標(biāo)準(zhǔn)答案(在極端場(chǎng)景下人類(lèi)也很難標(biāo)注出完美軌跡)。基座大模型可以在重建的仿真場(chǎng)景中自己“采樣(Rollout)”出多條不同的駕駛解決方案(比如遇到違規(guī)加塞時(shí),是選擇體感不佳的急剎,還是選擇橫向避讓?zhuān)kS后,模型內(nèi)部的“評(píng)論員(Critic)”會(huì)結(jié)合預(yù)設(shè)的安全和舒適度規(guī)則,對(duì)這些軌跡進(jìn)行行為分析和評(píng)分。通過(guò)這種閉環(huán)強(qiáng)化學(xué)習(xí)(RL Policy Optimization)的持續(xù)迭代,模型能夠在極其復(fù)雜的邊緣場(chǎng)景中輸出更安全、更精準(zhǔn)的決策。
以上就是元戎啟行在本次GTC 2026分享的核心內(nèi)容,歡迎留言交流更多核心背后的算法信息。
參考資料以及圖片
Redefining the Boundaries of Autonomous Driving with Foundation Model -元戎啟行 曹通易*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-
原文標(biāo)題 : 元戎啟行的 40B VLA 自動(dòng)駕駛基座模型和方法論
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專(zhuān)題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 9 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





