成人免费午夜精品一区二区-亚洲视频在线观看久久-国产原创自拍看在线视频-这里只有精品自拍偷拍亚洲色图-亚洲变态另类色图天堂网-国产欧美日韩亚洲一区-国产精品自拍35页-男人插入女人下面的真实视频-蜜桃臀一区二区三区精品视频

訂閱
糾錯(cuò)
加入自媒體

理想的自動(dòng)駕駛基座:MindVLA-o1在做什么?

芝能智芯出品

在 NVIDIA GTC 2026 上,理想汽車發(fā)布了新一代自動(dòng)駕駛基座模型 MindVLA-o1。官方的描述是"自動(dòng)駕駛進(jìn)入物理智能體時(shí)代"。

這類表述在發(fā)布會(huì)上出現(xiàn)太多次,很容易被當(dāng)成話術(shù)略過。

這意味在工程層面做了什么?自動(dòng)駕駛這件事本身的問題定義正在被重寫。

Part 1問題變了,自動(dòng)駕駛在解決什么

三次躍遷之后,卡在哪里了

過去十年,自動(dòng)駕駛的技術(shù)路徑經(jīng)歷了三次迭代。

 第一代是規(guī)則驅(qū)動(dòng):工程師手寫規(guī)則,告訴系統(tǒng)什么情況下剎車、什么情況下變道。這套方法在結(jié)構(gòu)化道路上能用,但規(guī)則寫不完,現(xiàn)實(shí)比規(guī)則復(fù)雜得多。

 第二代是端到端:不再手寫規(guī)則,而是喂給模型海量數(shù)據(jù),讓它自己學(xué)出駕駛策略。這解決了規(guī)則無法窮舉的問題,但新的問題出現(xiàn)了——模型學(xué)會(huì)的是數(shù)據(jù)里的模式,遇到訓(xùn)練數(shù)據(jù)覆蓋不到的情況就容易崩。

 第三代是 VLA,也就是把視覺、語言、行動(dòng)整合進(jìn)一個(gè)架構(gòu),讓系統(tǒng)具備跨任務(wù)的理解和泛化能力,不再只是一個(gè)駕駛專用的預(yù)測(cè)機(jī)器。

但 VLA 也有它自己的天花板。它能理解場(chǎng)景,能做出決策,但它對(duì)世界的理解是靜態(tài)的——它知道現(xiàn)在是什么狀態(tài),但不能很好地推演這個(gè)狀態(tài)接下來會(huì)怎么變。

一個(gè)行人正在路邊站著,VLA 能識(shí)別他,但很難預(yù)判他下一秒會(huì)不會(huì)突然走出來。這不是感知精度的問題,而是對(duì)物理世界的因果結(jié)構(gòu)缺乏理解。

 第四次躍遷:從"開車"到"理解世界"

MindVLA-o1 想解決的正是這個(gè)缺口。

它的核心主張是:自動(dòng)駕駛系統(tǒng)不應(yīng)該只是一個(gè)駕駛?cè)蝿?wù)執(zhí)行器,而應(yīng)該是一個(gè)能在物理世界中持續(xù)認(rèn)知、預(yù)測(cè)和行動(dòng)的智能體。

這個(gè)表述聽起來抽象,但落到工程上有一個(gè)很具體的含義:系統(tǒng)需要在內(nèi)部建立一個(gè)關(guān)于世界"接下來會(huì)發(fā)生什么"的模型,而不只是對(duì)當(dāng)前狀態(tài)做出反應(yīng)。這就是"世界模型"(World Model)的意義所在。

過去一年,自動(dòng)駕駛行業(yè)在 VLA 和世界模型之間存在一個(gè)技術(shù)路線的爭(zhēng)論,有人認(rèn)為應(yīng)該押注 VLA,有人認(rèn)為世界模型才是未來。

理想給出的答案是:這兩件事不是競(jìng)爭(zhēng)關(guān)系,而是分工關(guān)系:

 VLA 負(fù)責(zé)決策閉環(huán),在車上實(shí)時(shí)運(yùn)行;

 世界模型負(fù)責(zé)認(rèn)知和訓(xùn)練,在云端生成數(shù)據(jù)、模擬場(chǎng)景、優(yōu)化策略。

車端要的是快,云端要的是深,兩者承擔(dān)不同的職責(zé),在不同的地方發(fā)揮價(jià)值。

這個(gè)分工聽起來合理,但把它真正做通,需要解決幾個(gè)過去沒有人徹底解決的工程問題。

Part 2

理想怎么做——

三個(gè)關(guān)鍵的工程選擇

讓模型學(xué)會(huì)"世界如何變化",而不是"當(dāng)前是什么樣"

傳統(tǒng)自動(dòng)駕駛的感知系統(tǒng),處理的是空間問題:這里有什么,那里有什么,彼此的位置關(guān)系是什么。

這個(gè)問題被描述成一張鳥瞰圖——把三維世界壓平成二維平面,標(biāo)注出障礙物和車道線。這套方法在很長(zhǎng)時(shí)間里夠用,但它有一個(gè)根本性的局限:它丟失了時(shí)間。

MindVLA-o1 的第一個(gè)關(guān)鍵選擇,是從空間表示轉(zhuǎn)向時(shí)空表示,引入了一種叫做"下一幀預(yù)測(cè)"的訓(xùn)練方式:模型不只是學(xué)習(xí)"當(dāng)前世界是什么狀態(tài)",而是學(xué)習(xí)"這個(gè)狀態(tài)接下來會(huì)怎么變"。

同時(shí),感知編碼器升級(jí)到了三維結(jié)構(gòu),融合了攝像頭和激光雷達(dá)的信息,保留了高度和動(dòng)態(tài)關(guān)系——這些在鳥瞰圖里會(huì)被壓平的信息。

這個(gè)改變的意義在于:模型開始理解物理因果關(guān)系,而不只是識(shí)別靜態(tài)模式。

一輛車正在加速,下一幀它會(huì)在哪里;一個(gè)行人正在轉(zhuǎn)身,下一步他最可能走向哪個(gè)方向——這類判斷需要對(duì)世界的動(dòng)態(tài)結(jié)構(gòu)有理解,光靠感知精度是不夠的。

把"想象未來"的成本壓下來

有了對(duì)世界動(dòng)態(tài)的理解,如何在車上實(shí)時(shí)使用這種理解。世界模型的計(jì)算代價(jià)很高,直接在車端運(yùn)行幾乎不可能。

理想的解法是把預(yù)測(cè)過程壓縮到"隱空間"里進(jìn)行。所謂隱空間,是模型內(nèi)部的一種壓縮表示——不是真實(shí)世界的圖像或點(diǎn)云,而是經(jīng)過編碼之后的抽象向量。

在隱空間里推演未來,比在原始感知數(shù)據(jù)層面推演要快得多、省得多。訓(xùn)練的時(shí)候先用視頻數(shù)據(jù)學(xué)會(huì)如何壓縮和解壓縮這種表示,然后在隱空間里建立預(yù)測(cè)未來的能力,最后再把這種預(yù)測(cè)能力和駕駛決策聯(lián)合訓(xùn)練。

結(jié)果是:系統(tǒng)獲得了"想象未來"的能力,但把這種能力的計(jì)算成本壓縮到了可以在車端實(shí)時(shí)使用的級(jí)別。

從預(yù)測(cè)軌跡到生成軌跡

傳統(tǒng)的自動(dòng)駕駛規(guī)劃,做的是一個(gè)預(yù)測(cè)問題:給定當(dāng)前狀態(tài),預(yù)測(cè)出未來最可能的路徑點(diǎn)序列。MindVLA-o1 把這件事改造成了一個(gè)生成問題:用類似大語言模型生成文字的方式,生成駕駛軌跡。

這個(gè)轉(zhuǎn)變聽起來像換了個(gè)說法,但工程含義很不同。

 生成模型可以同時(shí)考慮多種可能性,然后通過多輪迭代優(yōu)化收斂到最好的解;

 而傳統(tǒng)預(yù)測(cè)模型更像是沿著一條確定的路徑走下去。

具體實(shí)現(xiàn)上,理想用了三項(xiàng)技術(shù)的組合:混合專家模型(不同駕駛場(chǎng)景交給不同專家模塊處理)、并行解碼(所有軌跡點(diǎn)同時(shí)生成,避免順序生成帶來的延遲積累)、擴(kuò)散優(yōu)化(多輪迭代讓軌跡越來越平滑穩(wěn)定)。

這三件事加在一起解決的是一個(gè)實(shí)際問題:在復(fù)雜場(chǎng)景里,軌跡生成既要快,又要穩(wěn),還要能覆蓋多種不同的處置策略。以前這三個(gè)要求很難同時(shí)滿足,現(xiàn)在有了一套組合解法。

模型結(jié)構(gòu)之外,還有一個(gè)更根本的問題:數(shù)據(jù)從哪里來。

自動(dòng)駕駛最難搞定的不是常見場(chǎng)景,而是長(zhǎng)尾場(chǎng)景——那些在真實(shí)道路上出現(xiàn)概率很低、但一旦出現(xiàn)就很危險(xiǎn)的情況。靠真實(shí)采集數(shù)據(jù)來覆蓋這些場(chǎng)景,成本極高,而且有些極端情況根本不可能在真實(shí)路測(cè)中主動(dòng)制造。

MindVLA-o1 的解法是用世界模型生成仿真場(chǎng)景,再用強(qiáng)化學(xué)習(xí)在這些場(chǎng)景里讓模型自己探索最優(yōu)策略。這套流程在效率上有一個(gè)關(guān)鍵改進(jìn):場(chǎng)景生成從逐步重建改成了前饋生成,速度快了約兩倍,訓(xùn)練成本降低了約 75%。

更重要的是這套機(jī)制帶來的能力:系統(tǒng)不再只是被動(dòng)地從人類標(biāo)注數(shù)據(jù)里學(xué)習(xí),而是可以主動(dòng)生成從未見過的情況,然后在其中試錯(cuò)、優(yōu)化、迭代。這是一種質(zhì)的變化——從"被教會(huì)"到"自己學(xué)會(huì)"。

最后一個(gè)工程選擇是軟硬件協(xié)同。模型再先進(jìn),如果在車端硬件上跑不起來,等于白做。

理想引入了一套叫做 Roofline 的分析框架,用來在模型結(jié)構(gòu)和硬件性能之間建立精確的映射關(guān)系,再通過大規(guī)模架構(gòu)搜索——測(cè)試了大約 2000 種不同的模型配置——找到在精度和延遲之間的最優(yōu)平衡點(diǎn)。

一個(gè)有意思的發(fā)現(xiàn)是:在車端場(chǎng)景里,更"寬但淺"的模型結(jié)構(gòu)優(yōu)于深層結(jié)構(gòu)。這與大語言模型的經(jīng)驗(yàn)相反,反映的是車端對(duì)實(shí)時(shí)性的要求比對(duì)參數(shù)規(guī)模更敏感。

這套探索過程,過去需要數(shù)月,現(xiàn)在壓縮到了數(shù)天。

Part 3這件事更大的意義

車,是目前最好的具身智能載體

MindVLA-o1 最值得關(guān)注的方向:自動(dòng)駕駛正在成為通用物理 AI 的入口。

這件事的邏輯并不復(fù)雜。要訓(xùn)練一個(gè)能在真實(shí)物理世界中行動(dòng)的 AI,你需要三件東西:完整的感知系統(tǒng)、實(shí)時(shí)的決策需求、大規(guī)模的真實(shí)數(shù)據(jù)。

汽車恰好同時(shí)具備這三件東西,而且已經(jīng)有數(shù)百萬輛在路上跑,每天產(chǎn)生海量的真實(shí)場(chǎng)景數(shù)據(jù)。

相比之下,機(jī)器人雖然是更通用的具身載體,但它的規(guī)模化部署還要等很多年。

誰在自動(dòng)駕駛上建立了強(qiáng)大的感知、預(yù)測(cè)、決策和學(xué)習(xí)體系,誰就在通用物理 AI 的競(jìng)爭(zhēng)中擁有了一個(gè)很難被繞過的先發(fā)優(yōu)勢(shì)。

同一套模型,可以控制機(jī)器人

理想已經(jīng)明確,MindVLA-o1 的架構(gòu)不只用于駕駛,同一套 VLA 模型可以遷移到機(jī)器人控制上。這不是一個(gè)遙遠(yuǎn)的路線圖,而是一個(gè)工程上已經(jīng)在驗(yàn)證的方向。

原因在于,駕駛和機(jī)器人在底層問題上高度相似:都需要感知三維空間,都需要理解物體的運(yùn)動(dòng)和意圖,都需要在實(shí)時(shí)約束下做出行動(dòng)決策。兩者的差異更多在于執(zhí)行器,一個(gè)是方向盤和油門,一個(gè)是機(jī)械臂和腿。

如果感知和決策的底層模型是通用的,那么遷移的成本會(huì)大幅降低。這是一個(gè)值得認(rèn)真看待的技術(shù)判斷,自動(dòng)駕駛的邊界可能比我們通常想的要寬得多。

過去幾年,自動(dòng)駕駛的軍備競(jìng)賽主要發(fā)生在兩個(gè)地方:傳感器數(shù)量和城市覆蓋里程。這兩件事當(dāng)然重要,但它們正在快速成為行業(yè)基線,不再是真正的差異化來源。

小結(jié)

MindVLA-o1 所代表的方向,指向的是另一維度的競(jìng)爭(zhēng):數(shù)據(jù)閉環(huán)能力、仿真能力、強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施、系統(tǒng)工程整合能力。

這些東西都不是一兩年能追上的,它們依賴長(zhǎng)期的技術(shù)積累和大規(guī)模的工程投入,本質(zhì)上是組織能力,而不只是模型能力。

MindVLA-o1 的意義或許不在于它今天是否已經(jīng)領(lǐng)先,而在于它標(biāo)志著競(jìng)爭(zhēng)維度的一次遷移,從"誰的感知更準(zhǔn)"到"誰的系統(tǒng)進(jìn)化更快"。后一場(chǎng)競(jìng)爭(zhēng),才剛剛開始。

       原文標(biāo)題 : 理想的自動(dòng)駕駛基座:MindVLA-o1在做什么?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    智能制造 獵頭職位 更多
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)