定義下一代機(jī)器人訓(xùn)練,智元 SOP:VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破
當(dāng)前,VLA模型通過大規(guī)模預(yù)訓(xùn)練具備了出色的泛化能力,但在實(shí)際場(chǎng)景部署時(shí),除了需要廣泛的通用性,還需達(dá)到專家級(jí)的任務(wù)執(zhí)行水平。以家庭機(jī)器人為例:它必須能夠折疊衣物、整理貨架、組裝家具,同時(shí)展現(xiàn)出堪比專用設(shè)備所要求的可靠性與精確性。
要讓機(jī)器人實(shí)現(xiàn)能真正干活的目標(biāo),剩余的挑戰(zhàn)就在于:如何在不犧牲通過大規(guī)模預(yù)訓(xùn)練所獲得的通用性的前提下,賦予這些模型專家級(jí)的熟練度。
那么,問題的關(guān)鍵就在于后訓(xùn)練—— 使預(yù)訓(xùn)練模型適應(yīng)特定的下游部署場(chǎng)景。在大型語言模型(LLMs)等領(lǐng)域,通過在線強(qiáng)化學(xué)習(xí)(RL)和人類反饋進(jìn)行的后訓(xùn)練已被證明非常有效,使模型能夠通過大規(guī)模分布式訓(xùn)練持續(xù)改進(jìn)。然而,對(duì)于物理世界中的VLA后訓(xùn)練,結(jié)合分布式數(shù)據(jù)收集的在線學(xué)習(xí)的系統(tǒng)級(jí)實(shí)現(xiàn),在很大程度上仍未得到充分探索。
現(xiàn)有針對(duì)VLA 模型的后訓(xùn)練方法多為離線式、單機(jī)器人適配或特定任務(wù)專用。在這種模式下,數(shù)據(jù)收集與策略改進(jìn)在結(jié)構(gòu)上是脫節(jié)的。
對(duì)預(yù)先收集的演示數(shù)據(jù)進(jìn)行離線訓(xùn)練,不可避免地會(huì)遭受分布偏移的影響,微小的執(zhí)行誤差會(huì)在長時(shí)程任務(wù)中不斷累積。這限制了模型在現(xiàn)實(shí)交互過程中的高效在線策略適配與可擴(kuò)展學(xué)習(xí)。
為此,智元機(jī)器人提出一種可擴(kuò)展在線后訓(xùn)練系統(tǒng) —— SOP(Scalable Online Post-training),這是一套閉環(huán)智能體- 學(xué)習(xí)器架構(gòu),能夠依托異構(gòu)機(jī)器人集群的持續(xù)真實(shí)場(chǎng)景交互數(shù)據(jù),對(duì)預(yù)訓(xùn)練的VLA模型進(jìn)行適配優(yōu)化。

SOP系統(tǒng)工作流程
機(jī)器人集群在各類任務(wù)中持續(xù)采集經(jīng)驗(yàn)數(shù)據(jù),將交互數(shù)據(jù)實(shí)時(shí)傳輸至中心化云端服務(wù)器,并異步接收更新后的控制策略—— 使 VLA 模型在保持通用性的同時(shí),提升各任務(wù)的執(zhí)行熟練度。
一、什么是SOP?
SOP 系統(tǒng)采用閉環(huán)架構(gòu),將執(zhí)行與學(xué)習(xí)環(huán)節(jié)緊密耦合:機(jī)器人集群與中心化云端學(xué)習(xí)器之間持續(xù)交互 —— 前者向后者傳輸在線策略軌跡數(shù)據(jù)與人工干預(yù)信號(hào),后者則向前者異步下發(fā)更新后的控制策略。這種 “采集 - 訓(xùn)練 - 部署” 的閉環(huán)模式,可實(shí)現(xiàn)低延遲的模型適配,且適配效率隨機(jī)器人集群規(guī)模的擴(kuò)大而自然提升。
SOP 框架包含三個(gè)核心模塊:
由機(jī)器人智能體執(zhí)行的分布式在線策略數(shù)據(jù)采集;
基于在線- 離線混合數(shù)據(jù)的集中式云端優(yōu)化;
向智能體端回傳的低延遲模型同步機(jī)制。

SOP系統(tǒng)架構(gòu)
SOP 采用 Actor–Learner 異步架構(gòu):
1)Actor(機(jī)器人側(cè))并行經(jīng)驗(yàn)采集
多臺(tái)部署了同一policy模型的機(jī)器人(actors)在不同地點(diǎn)同時(shí)執(zhí)行多樣任務(wù),持續(xù)采集成功、失敗以及人類接管產(chǎn)生的交互數(shù)據(jù)。每臺(tái)機(jī)器人的經(jīng)驗(yàn)數(shù)據(jù)被匯總傳輸至云端 Experience Buffer中。
2)Learner(云端)在線學(xué)習(xí)
所有交互軌跡實(shí)時(shí)上傳至云端learner,形成由在線數(shù)據(jù)與離線專家示教數(shù)據(jù)組成的數(shù)據(jù)池。
系統(tǒng)通過動(dòng)態(tài)重采樣策略,根據(jù)不同任務(wù)的性能表現(xiàn),自適應(yīng)調(diào)整在線/離線數(shù)據(jù)比例,以更高效地利用真實(shí)世界經(jīng)驗(yàn)。
3)即時(shí)參數(shù)同步
更新后的模型參數(shù)在分鐘級(jí)別內(nèi)同步回所有機(jī)器人,實(shí)現(xiàn)集群一致進(jìn)化,維持在線訓(xùn)練的穩(wěn)定性。
SOP 是一套可擴(kuò)展的Actor–Learner 框架,適用于通用策略的在線多任務(wù)后訓(xùn)練。機(jī)器人集群會(huì)將在線策略軌跡采樣數(shù)據(jù)實(shí)時(shí)傳輸至云端學(xué)習(xí)器。
當(dāng)系統(tǒng)出現(xiàn)故障或判定結(jié)果存疑時(shí),將觸發(fā)可選的人工干預(yù)流程,人工修正后的軌跡或動(dòng)作會(huì)被納入緩存區(qū)。云端學(xué)習(xí)器通過融合在線緩存區(qū)與靜態(tài)離線緩存區(qū)的數(shù)據(jù),生成任務(wù)均衡的更新參數(shù);隨后接入插件式后訓(xùn)練模塊(如HG-DAgger/RECAP),并將更新后的權(quán)重異步廣播至所有Actor(智能體),從而形成低延遲的在線訓(xùn)練閉環(huán)。
二、SOP的實(shí)現(xiàn)效果如何?
值得注意的是,SOP 具備算法無關(guān)性:該框架僅定義系統(tǒng)級(jí)的數(shù)據(jù)流與同步規(guī)則,具體的參數(shù)更新方法可替換為任意后訓(xùn)練算法。
在本研究中,智元團(tuán)隊(duì)基于兩種現(xiàn)有后訓(xùn)練方法——HG-DAgger 與 RECAP —— 搭建 SOP 的實(shí)例化模型,并通過持續(xù)輸入實(shí)時(shí)交互經(jīng)驗(yàn)、執(zhí)行高頻異步模型更新,驗(yàn)證 SOP 可將這兩種方法升級(jí)為可落地的在線策略式在線后訓(xùn)練方案。
在一系列現(xiàn)實(shí)操作任務(wù)(包括布料折疊、箱體組裝和雜貨補(bǔ)貨)的測(cè)試中,智元機(jī)器人驗(yàn)證了SOP 系統(tǒng)能夠顯著提升大規(guī)模預(yù)訓(xùn)練 VLA 模型的性能,同時(shí)維持跨任務(wù)的單一共享策略。僅需數(shù)小時(shí)的現(xiàn)實(shí)交互即可完成高效的后訓(xùn)練,且模型性能與機(jī)器人集群的規(guī)模呈近似線性正相關(guān)。上述結(jié)果表明,將在線學(xué)習(xí)與集群級(jí)部署緊密結(jié)合,是實(shí)現(xiàn)通用型機(jī)器人策略在物理世界中高效、可靠、可擴(kuò)展后訓(xùn)練的關(guān)鍵技術(shù)路徑。
整體來看,研究團(tuán)隊(duì)圍繞三個(gè)問題系統(tǒng)評(píng)估SOP:
1)SOP 能為預(yù)訓(xùn)練 VLA 帶來多大性能提升?
2)機(jī)器人規(guī)模如何影響學(xué)習(xí)效率?
3)不同預(yù)訓(xùn)練規(guī)模下SOP 是否穩(wěn)定有效?
1. SOP 能為預(yù)訓(xùn)練 VLA 帶來多大性能提升
實(shí)驗(yàn)結(jié)果說明,在各類測(cè)試場(chǎng)景下,結(jié)合SOP的后訓(xùn)練方法均得到了顯著的性能提升。相比預(yù)訓(xùn)練模型,結(jié)合SOP的HG-Dagger方法在物品繁雜的商超場(chǎng)景中實(shí)現(xiàn)了33%的綜合性能提升。對(duì)于靈巧操作任務(wù)(疊衣服和紙盒裝配),SOP 的引入不僅提升了任務(wù)的成功率,結(jié)合在線經(jīng)驗(yàn)學(xué)習(xí)到的錯(cuò)誤恢復(fù)能力還能明顯提升策略操作的吞吐量。
結(jié)合SOP的HG-Dagger方法讓疊衣服的相比HG-Dagger吞吐量躍升114%。SOP讓多任務(wù)通才的性能普遍提升至近乎完美,不同任務(wù)的成功率均提升至94%以上,紙盒裝配更是達(dá)到98%的成功率。
SOP性能提升
為了進(jìn)一步測(cè)試真機(jī)SOP訓(xùn)練后VLA模型是否達(dá)到專家級(jí)性能,研究團(tuán)隊(duì)讓SOP訓(xùn)練的VLA模型進(jìn)行了長達(dá)36小時(shí)的連續(xù)操作,模型展現(xiàn)出了驚人的穩(wěn)定性和魯棒性,能夠有效應(yīng)對(duì)真實(shí)世界中出現(xiàn)的各種疑難雜癥。
2. 機(jī)器人規(guī)模如何影響學(xué)習(xí)效率
智元使用了三種機(jī)器人隊(duì)伍數(shù)量(單機(jī)、雙機(jī)、四機(jī)配置),在同樣的數(shù)據(jù)傳送總量的基礎(chǔ)上,進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,在相同的總訓(xùn)練時(shí)間下,更多數(shù)量的機(jī)器人帶來了更高的性能表現(xiàn)。在總訓(xùn)練時(shí)間為3小時(shí)的限制下,四機(jī)進(jìn)行學(xué)習(xí)的最終成功率達(dá)到了92.5%,比單機(jī)高出12%。
研究團(tuán)隊(duì)認(rèn)為,多機(jī)采集可以有效阻止模型過擬合到單機(jī)的特定特征上。同時(shí),SOP 還將硬件的擴(kuò)展轉(zhuǎn)化為了學(xué)習(xí)時(shí)長的大幅縮短,四機(jī)器人集群相比單機(jī)能夠?qū)⒛P瓦_(dá)到目標(biāo)性能的訓(xùn)練速度增至2.4倍。

SOP學(xué)習(xí)效率提升
3. 不同預(yù)訓(xùn)練規(guī)模下SOP 是否穩(wěn)定有效?
研究團(tuán)隊(duì)把總量為160小時(shí)的多任務(wù)預(yù)訓(xùn)練數(shù)據(jù)分為了三組:20小時(shí),80小時(shí)和160小時(shí),分別訓(xùn)練一組初始模型后再進(jìn)行 SOP。
研究發(fā)現(xiàn),預(yù)訓(xùn)練的規(guī)模決定了基座模型和后訓(xùn)練提升的軌跡。SOP 能為所有初始模型帶來穩(wěn)定的提升,且最終性能與VLA預(yù)訓(xùn)練質(zhì)量正相關(guān)。
同時(shí),對(duì)比80小時(shí)和160小時(shí)實(shí)驗(yàn)效果,也可以明顯注意到,在解決特定失敗情況時(shí),在軌策略經(jīng)驗(yàn)帶來了非常顯著的邊際效果。
SOP 在三小時(shí)的在軌經(jīng)驗(yàn)下就獲得了約30%的性能提升,而80小時(shí)額外人類專家數(shù)據(jù)只帶來了4%的提升。這說明在預(yù)訓(xùn)練出現(xiàn)邊際效應(yīng)遞減的情況下,SOP 能夠高效突破VLA性能瓶頸。

SOP在不同預(yù)訓(xùn)練數(shù)據(jù)規(guī)模下的對(duì)比
三、未來展望
智元機(jī)器人的本次研究結(jié)果表明,執(zhí)行與學(xué)習(xí)的系統(tǒng)級(jí)耦合對(duì)于后訓(xùn)練的成功而言,其重要性與底層算法不相上下。通過讓機(jī)器人集群持續(xù)上傳在線策略經(jīng)驗(yàn)數(shù)據(jù),并反向接收更新后的策略模型,SOP 框架將傳統(tǒng)的階段性微調(diào)模式,升級(jí)為可規(guī)模化擴(kuò)展的閉環(huán)學(xué)習(xí)模式。
研究發(fā)現(xiàn),在線策略修正產(chǎn)生的邊際效用,顯著高于新增離線數(shù)據(jù)的效用增益,這一結(jié)論印證了一個(gè)業(yè)內(nèi)普遍共識(shí):靜態(tài)數(shù)據(jù)集無法完全預(yù)判部署后策略所觸發(fā)的狀態(tài)分布變化 。而SOP 則在系統(tǒng)層面,將這一結(jié)論轉(zhuǎn)化為了可落地的技術(shù)方案。
盡管已展現(xiàn)出優(yōu)異性能,SOP 目前仍需依賴人工干預(yù)或任務(wù)專屬獎(jiǎng)勵(lì)信號(hào)開展訓(xùn)練。未來的重要研究方向在于,通過習(xí)得獎(jiǎng)勵(lì)模型或基于基礎(chǔ)模型的任務(wù)成功檢測(cè)技術(shù),降低此類監(jiān)督成本。
此外,兩個(gè)亟待探索的開放性問題仍有待解答:
一是當(dāng)前近乎線性的擴(kuò)展效率能否延伸至規(guī)模更為龐大的機(jī)器人集群;
二是如何在實(shí)現(xiàn)新技能持續(xù)習(xí)得的同時(shí),避免出現(xiàn)災(zāi)難性遺忘現(xiàn)象。
展望未來,智元機(jī)器人構(gòu)想了這樣一幅圖景:機(jī)器人集群可依托實(shí)際部署過程中的經(jīng)驗(yàn)數(shù)據(jù),共同維護(hù)一套共享且持續(xù)迭代的策略模型。
從這個(gè)角度來看,機(jī)器人部署規(guī)模的擴(kuò)大,等同于學(xué)習(xí)算力的擴(kuò)充—— 每新增一臺(tái)機(jī)器人,都會(huì)進(jìn)一步加速策略模型的優(yōu)化進(jìn)程。
原文標(biāo)題 : 定義下一代機(jī)器人訓(xùn)練?智元 SOP:VLA 模型真實(shí)世界分布式在線后訓(xùn)練的關(guān)鍵突破
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市



分享





