9月15日,宇樹宣布開源 UnifoLM-WMA-0,其為宇樹科技跨多類機器人本體的開源世界模型-動作架構,專為通用機器人學習而設計,其核心理念在于設計一個可以理解機器人與環境交互物理規律的世界模型。
該世界模型提供兩項關鍵功能:
- 模擬引擎——作為交互式模擬器運行,生成用于機器人學習的合成數據;
- 策略增強——連接動作頭,通過預測未來與世界模型的交互過程,進一步優化決策性能。
團隊展示了機器人的部署情況:
官方表示,UnifoLM-WMA-0屬于Unitree機器人統一大模型系列成果,專為通用機器人學習量身打造,可以適配多種機器人本體。
目前,UnifoLM-WMA-0 開源了訓練代碼、推理代碼、模型 Checkpoints。GitHub 已收獲 100+ Star。
微調和訓練
宇樹團隊也發表了 UnifoLM-WMA-0 的訓練步驟。
首先,團隊在 Open-X 數據集上微調視頻生成模型,將其生成能力調節至與機器人作業場景適配。 模型接收圖像及文本指令,生成與文本指令對應的未來動作視頻。
這是微調模型在測試集上的生成效果:
支持兩種運行模式的策略架構
隨后他們提出了一種基于世界模型的策略架構,同時支持兩種運行模式:
- 決策模式: 提供機器人與環境進行物理交互的預測信息, 輔助策略生成動作;
- 仿真模式: 基于機器人動作生成高保真環境反饋。
這是訓練后 UnifoLM-WMA 在下游任務數據集上的決策模式,團隊在下游任務數據集上分別做了后訓練優化:
團隊還公開了五個模型訓練的開源數據集。測試結果顯示,模型作為仿真引擎,可根據"當前圖像"及一定數量的“機器人未來動作”,實現交互可控生成。
生成結果與原視頻對比如下所示:
實現通用機器人任重道遠
宇樹宣稱“世界模型—動作”架構將完整開源并持續更新。此開源架構旨在推動具身智能發展,加快通用機器人實現的進程。
作為人形機器人領域以硬件實力著稱的企業,宇樹在軟件層面的布局同樣備受關注。創始人兼CEO王興興表示,公司在具身智能模型研發上依然保持謹慎投入。雖然企業規模已顯著擴大,但與大型AI公司相比,宇樹的投入仍有限。
王興興指出,目前機器人硬件總體“夠用但不夠好”,若要實現規模化應用、更低成本和更高可靠性,仍需不斷完善。而在他看來,具身智能模型研發是當前的核心任務,現階段模型遠未成熟,無法滿足行業需求。
在談到訓練數據時,他表示,與大語言模型依靠大規模高質量數據快速提升不同,機器人領域在模型與實體對齊上存在更大挑戰,因此對AI模型能力的要求更高。
他強調,具身智能的突破并非資源和資金投入的單一比拼,過去的經驗已證明,中小團隊同樣可能取得領先成果。
·