定義下一代機(jī)器人訓(xùn)練,智元 SOP：VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破

2026-01-07 13:43

當(dāng)前，VLA模型通過大規(guī)模預(yù)訓(xùn)練具備了出色的泛化能力，但在實(shí)際場(chǎng)景部署時(shí)，除了需要廣泛的通用性，還需達(dá)到專家級(jí)的任務(wù)執(zhí)行水平。以家庭機(jī)器人為例：它必須能夠折疊衣物、整理貨架、組裝家具，同時(shí)展現(xiàn)出堪比專用設(shè)備所要求的可靠性與精確性。

要讓機(jī)器人實(shí)現(xiàn)能真正干活的目標(biāo)，剩余的挑戰(zhàn)就在于：如何在不犧牲通過大規(guī)模預(yù)訓(xùn)練所獲得的通用性的前提下，賦予這些模型專家級(jí)的熟練度。

那么，問題的關(guān)鍵就在于后訓(xùn)練—— 使預(yù)訓(xùn)練模型適應(yīng)特定的下游部署場(chǎng)景。在大型語言模型（LLMs）等領(lǐng)域，通過在線強(qiáng)化學(xué)習(xí)（RL）和人類反饋進(jìn)行的后訓(xùn)練已被證明非常有效，使模型能夠通過大規(guī)模分布式訓(xùn)練持續(xù)改進(jìn)。然而，對(duì)于物理世界中的VLA后訓(xùn)練，結(jié)合分布式數(shù)據(jù)收集的在線學(xué)習(xí)的系統(tǒng)級(jí)實(shí)現(xiàn)，在很大程度上仍未得到充分探索。

現(xiàn)有針對(duì)VLA 模型的后訓(xùn)練方法多為離線式、單機(jī)器人適配或特定任務(wù)專用。在這種模式下，數(shù)據(jù)收集與策略改進(jìn)在結(jié)構(gòu)上是脫節(jié)的。

對(duì)預(yù)先收集的演示數(shù)據(jù)進(jìn)行離線訓(xùn)練，不可避免地會(huì)遭受分布偏移的影響，微小的執(zhí)行誤差會(huì)在長時(shí)程任務(wù)中不斷累積。這限制了模型在現(xiàn)實(shí)交互過程中的高效在線策略適配與可擴(kuò)展學(xué)習(xí)。

為此，智元機(jī)器人提出一種可擴(kuò)展在線后訓(xùn)練系統(tǒng) —— SOP（Scalable Online Post-training），這是一套閉環(huán)智能體- 學(xué)習(xí)器架構(gòu)，能夠依托異構(gòu)機(jī)器人集群的持續(xù)真實(shí)場(chǎng)景交互數(shù)據(jù)，對(duì)預(yù)訓(xùn)練的VLA模型進(jìn)行適配優(yōu)化。

SOP系統(tǒng)工作流程

機(jī)器人集群在各類任務(wù)中持續(xù)采集經(jīng)驗(yàn)數(shù)據(jù)，將交互數(shù)據(jù)實(shí)時(shí)傳輸至中心化云端服務(wù)器，并異步接收更新后的控制策略—— 使 VLA 模型在保持通用性的同時(shí)，提升各任務(wù)的執(zhí)行熟練度。

一、什么是SOP？

SOP 系統(tǒng)采用閉環(huán)架構(gòu)，將執(zhí)行與學(xué)習(xí)環(huán)節(jié)緊密耦合：機(jī)器人集群與中心化云端學(xué)習(xí)器之間持續(xù)交互 —— 前者向后者傳輸在線策略軌跡數(shù)據(jù)與人工干預(yù)信號(hào)，后者則向前者異步下發(fā)更新后的控制策略。這種 “采集 - 訓(xùn)練 - 部署” 的閉環(huán)模式，可實(shí)現(xiàn)低延遲的模型適配，且適配效率隨機(jī)器人集群規(guī)模的擴(kuò)大而自然提升。

SOP 框架包含三個(gè)核心模塊：

由機(jī)器人智能體執(zhí)行的分布式在線策略數(shù)據(jù)采集；

基于在線- 離線混合數(shù)據(jù)的集中式云端優(yōu)化；

向智能體端回傳的低延遲模型同步機(jī)制。

SOP系統(tǒng)架構(gòu)

SOP 采用 Actor–Learner 異步架構(gòu)：

1）Actor（機(jī)器人側(cè)）并行經(jīng)驗(yàn)采集

多臺(tái)部署了同一policy模型的機(jī)器人（actors）在不同地點(diǎn)同時(shí)執(zhí)行多樣任務(wù)，持續(xù)采集成功、失敗以及人類接管產(chǎn)生的交互數(shù)據(jù)。每臺(tái)機(jī)器人的經(jīng)驗(yàn)數(shù)據(jù)被匯總傳輸至云端 Experience Buffer中。

2）Learner（云端）在線學(xué)習(xí)

所有交互軌跡實(shí)時(shí)上傳至云端learner，形成由在線數(shù)據(jù)與離線專家示教數(shù)據(jù)組成的數(shù)據(jù)池。

系統(tǒng)通過動(dòng)態(tài)重采樣策略，根據(jù)不同任務(wù)的性能表現(xiàn)，自適應(yīng)調(diào)整在線/離線數(shù)據(jù)比例，以更高效地利用真實(shí)世界經(jīng)驗(yàn)。

3）即時(shí)參數(shù)同步

更新后的模型參數(shù)在分鐘級(jí)別內(nèi)同步回所有機(jī)器人，實(shí)現(xiàn)集群一致進(jìn)化，維持在線訓(xùn)練的穩(wěn)定性。

SOP 是一套可擴(kuò)展的Actor–Learner 框架，適用于通用策略的在線多任務(wù)后訓(xùn)練。機(jī)器人集群會(huì)將在線策略軌跡采樣數(shù)據(jù)實(shí)時(shí)傳輸至云端學(xué)習(xí)器。

當(dāng)系統(tǒng)出現(xiàn)故障或判定結(jié)果存疑時(shí)，將觸發(fā)可選的人工干預(yù)流程，人工修正后的軌跡或動(dòng)作會(huì)被納入緩存區(qū)。云端學(xué)習(xí)器通過融合在線緩存區(qū)與靜態(tài)離線緩存區(qū)的數(shù)據(jù)，生成任務(wù)均衡的更新參數(shù)；隨后接入插件式后訓(xùn)練模塊（如HG-DAgger/RECAP），并將更新后的權(quán)重異步廣播至所有Actor（智能體），從而形成低延遲的在線訓(xùn)練閉環(huán)。

二、SOP的實(shí)現(xiàn)效果如何？

值得注意的是，SOP 具備算法無關(guān)性：該框架僅定義系統(tǒng)級(jí)的數(shù)據(jù)流與同步規(guī)則，具體的參數(shù)更新方法可替換為任意后訓(xùn)練算法。

在本研究中，智元團(tuán)隊(duì)基于兩種現(xiàn)有后訓(xùn)練方法——HG-DAgger 與 RECAP —— 搭建 SOP 的實(shí)例化模型，并通過持續(xù)輸入實(shí)時(shí)交互經(jīng)驗(yàn)、執(zhí)行高頻異步模型更新，驗(yàn)證 SOP 可將這兩種方法升級(jí)為可落地的在線策略式在線后訓(xùn)練方案。

在一系列現(xiàn)實(shí)操作任務(wù)（包括布料折疊、箱體組裝和雜貨補(bǔ)貨）的測(cè)試中，智元機(jī)器人驗(yàn)證了SOP 系統(tǒng)能夠顯著提升大規(guī)模預(yù)訓(xùn)練 VLA 模型的性能，同時(shí)維持跨任務(wù)的單一共享策略。僅需數(shù)小時(shí)的現(xiàn)實(shí)交互即可完成高效的后訓(xùn)練，且模型性能與機(jī)器人集群的規(guī)模呈近似線性正相關(guān)。上述結(jié)果表明，將在線學(xué)習(xí)與集群級(jí)部署緊密結(jié)合，是實(shí)現(xiàn)通用型機(jī)器人策略在物理世界中高效、可靠、可擴(kuò)展后訓(xùn)練的關(guān)鍵技術(shù)路徑。

整體來看，研究團(tuán)隊(duì)圍繞三個(gè)問題系統(tǒng)評(píng)估SOP：

1）SOP 能為預(yù)訓(xùn)練 VLA 帶來多大性能提升？

2）機(jī)器人規(guī)模如何影響學(xué)習(xí)效率？

3）不同預(yù)訓(xùn)練規(guī)模下SOP 是否穩(wěn)定有效？

1. SOP 能為預(yù)訓(xùn)練 VLA 帶來多大性能提升

實(shí)驗(yàn)結(jié)果說明，在各類測(cè)試場(chǎng)景下，結(jié)合SOP的后訓(xùn)練方法均得到了顯著的性能提升。相比預(yù)訓(xùn)練模型，結(jié)合SOP的HG-Dagger方法在物品繁雜的商超場(chǎng)景中實(shí)現(xiàn)了33%的綜合性能提升。對(duì)于靈巧操作任務(wù)（疊衣服和紙盒裝配），SOP 的引入不僅提升了任務(wù)的成功率，結(jié)合在線經(jīng)驗(yàn)學(xué)習(xí)到的錯(cuò)誤恢復(fù)能力還能明顯提升策略操作的吞吐量。

結(jié)合SOP的HG-Dagger方法讓疊衣服的相比HG-Dagger吞吐量躍升114%。SOP讓多任務(wù)通才的性能普遍提升至近乎完美，不同任務(wù)的成功率均提升至94%以上，紙盒裝配更是達(dá)到98%的成功率。

SOP性能提升

為了進(jìn)一步測(cè)試真機(jī)SOP訓(xùn)練后VLA模型是否達(dá)到專家級(jí)性能，研究團(tuán)隊(duì)讓SOP訓(xùn)練的VLA模型進(jìn)行了長達(dá)36小時(shí)的連續(xù)操作，模型展現(xiàn)出了驚人的穩(wěn)定性和魯棒性，能夠有效應(yīng)對(duì)真實(shí)世界中出現(xiàn)的各種疑難雜癥。

2. 機(jī)器人規(guī)模如何影響學(xué)習(xí)效率

智元使用了三種機(jī)器人隊(duì)伍數(shù)量（單機(jī)、雙機(jī)、四機(jī)配置），在同樣的數(shù)據(jù)傳送總量的基礎(chǔ)上，進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明，在相同的總訓(xùn)練時(shí)間下，更多數(shù)量的機(jī)器人帶來了更高的性能表現(xiàn)。在總訓(xùn)練時(shí)間為3小時(shí)的限制下，四機(jī)進(jìn)行學(xué)習(xí)的最終成功率達(dá)到了92.5%，比單機(jī)高出12%。

研究團(tuán)隊(duì)認(rèn)為，多機(jī)采集可以有效阻止模型過擬合到單機(jī)的特定特征上。同時(shí)，SOP 還將硬件的擴(kuò)展轉(zhuǎn)化為了學(xué)習(xí)時(shí)長的大幅縮短，四機(jī)器人集群相比單機(jī)能夠?qū)⒛Ｐ瓦_(dá)到目標(biāo)性能的訓(xùn)練速度增至2.4倍。

SOP學(xué)習(xí)效率提升

3. 不同預(yù)訓(xùn)練規(guī)模下SOP 是否穩(wěn)定有效？

研究團(tuán)隊(duì)把總量為160小時(shí)的多任務(wù)預(yù)訓(xùn)練數(shù)據(jù)分為了三組：20小時(shí)，80小時(shí)和160小時(shí)，分別訓(xùn)練一組初始模型后再進(jìn)行 SOP。

研究發(fā)現(xiàn)，預(yù)訓(xùn)練的規(guī)模決定了基座模型和后訓(xùn)練提升的軌跡。SOP 能為所有初始模型帶來穩(wěn)定的提升，且最終性能與VLA預(yù)訓(xùn)練質(zhì)量正相關(guān)。

同時(shí)，對(duì)比80小時(shí)和160小時(shí)實(shí)驗(yàn)效果，也可以明顯注意到，在解決特定失敗情況時(shí)，在軌策略經(jīng)驗(yàn)帶來了非常顯著的邊際效果。

SOP 在三小時(shí)的在軌經(jīng)驗(yàn)下就獲得了約30%的性能提升，而80小時(shí)額外人類專家數(shù)據(jù)只帶來了4%的提升。這說明在預(yù)訓(xùn)練出現(xiàn)邊際效應(yīng)遞減的情況下，SOP 能夠高效突破VLA性能瓶頸。

SOP在不同預(yù)訓(xùn)練數(shù)據(jù)規(guī)模下的對(duì)比

三、未來展望

智元機(jī)器人的本次研究結(jié)果表明，執(zhí)行與學(xué)習(xí)的系統(tǒng)級(jí)耦合對(duì)于后訓(xùn)練的成功而言，其重要性與底層算法不相上下。通過讓機(jī)器人集群持續(xù)上傳在線策略經(jīng)驗(yàn)數(shù)據(jù)，并反向接收更新后的策略模型，SOP 框架將傳統(tǒng)的階段性微調(diào)模式，升級(jí)為可規(guī)模化擴(kuò)展的閉環(huán)學(xué)習(xí)模式。

研究發(fā)現(xiàn)，在線策略修正產(chǎn)生的邊際效用，顯著高于新增離線數(shù)據(jù)的效用增益，這一結(jié)論印證了一個(gè)業(yè)內(nèi)普遍共識(shí)：靜態(tài)數(shù)據(jù)集無法完全預(yù)判部署后策略所觸發(fā)的狀態(tài)分布變化。而SOP 則在系統(tǒng)層面，將這一結(jié)論轉(zhuǎn)化為了可落地的技術(shù)方案。

盡管已展現(xiàn)出優(yōu)異性能，SOP 目前仍需依賴人工干預(yù)或任務(wù)專屬獎(jiǎng)勵(lì)信號(hào)開展訓(xùn)練。未來的重要研究方向在于，通過習(xí)得獎(jiǎng)勵(lì)模型或基于基礎(chǔ)模型的任務(wù)成功檢測(cè)技術(shù)，降低此類監(jiān)督成本。

此外，兩個(gè)亟待探索的開放性問題仍有待解答：

一是當(dāng)前近乎線性的擴(kuò)展效率能否延伸至規(guī)模更為龐大的機(jī)器人集群；

二是如何在實(shí)現(xiàn)新技能持續(xù)習(xí)得的同時(shí)，避免出現(xiàn)災(zāi)難性遺忘現(xiàn)象。

展望未來，智元機(jī)器人構(gòu)想了這樣一幅圖景：機(jī)器人集群可依托實(shí)際部署過程中的經(jīng)驗(yàn)數(shù)據(jù)，共同維護(hù)一套共享且持續(xù)迭代的策略模型。

從這個(gè)角度來看，機(jī)器人部署規(guī)模的擴(kuò)大，等同于學(xué)習(xí)算力的擴(kuò)充—— 每新增一臺(tái)機(jī)器人，都會(huì)進(jìn)一步加速策略模型的優(yōu)化進(jìn)程。

原文標(biāo)題 : 定義下一代機(jī)器人訓(xùn)練？智元 SOP：VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破