重磅！阿里達摩院發布首個VLA與世界模型統一架構RynnVLA-002：97.4%成功率刷新認知

2025-11-25 16:04

AI生成未來

關注

作者：Jun Cen等

解讀：AI生成未來

亮點直擊

統一架構：RynnVLA-002，這是一個將視覺-語言-動作（VLA）模型與世界模型統一在單一框架中的“動作世界模型”。

雙向增強：實現了 VLA 與世界模型的互補——世界模型利用物理規律優化動作生成，而 VLA 增強了視覺理解以支持更精準的圖像預測。

混合動作生成策略：針對離散動作生成的誤差累積問題，提出了“動作注意力掩碼”策略；針對實機操作的平滑性與泛化性問題，引入了連續的 Action Transformer 頭。

卓越性能：在 LIBERO 仿真基準測試中，在無預訓練的情況下達到了 97.4% 的成功率；在真實世界 LeRobot 實驗中，集成世界模型使整體成功率提升了50%。

解決的問題

本工作主要針對現有架構的以下局限性進行改進：

VLA 模型的缺陷：

動作理解不足：動作僅作為輸出存在，缺乏內部的顯式表征。

缺乏想象力：無法預測動作執行后的世界狀態演變，缺乏前瞻性。

缺乏物理常識：無法內化物體交互、接觸或穩定性等物理動力學。

世界模型的缺陷：無法直接生成動作輸出，存在功能鴻溝，限制了其在顯式動作規劃場景中的應用。

自回歸動作生成的缺陷：離散動作生成容易產生誤差傳播（Error Propagation），且在真實機器人上容易出現抖動且泛化性差。圖1(a) VLA 模型根據對圖像的理解生成動作；(b) 世界模型根據對圖像和動作的理解生成圖像；(c) 動作世界模型將對圖像和動作的理解與生成統一起來。

提出的方案

本工作提出了 RynnVLA-002，這是一個自回歸的動作世界模型。

統一詞表：使用三個獨立的 Tokenizer 分別對圖像、文本和動作進行編碼，并共享同一個詞表，使得不同模態可以在同一個 LLM 架構下統一進行理解和生成。

聯合訓練：模型既可以作為 VLA 根據觀察生成動作，也可以作為世界模型根據動作預測未來圖像。

混合生成機制：保留離散聯合建模的同時，加入了一個連續的 Action Transformer 頭，以適應真實世界的連續控制需求。

應用的技術

基礎架構：初始化自 Chameleon 模型（一種統一圖像理解與生成的模型）。

Tokenization（分詞技術）：

圖像：使用 VQ-GAN，壓縮率 16，碼本大小 8192。

文本：BPE Tokenizer。

動作/狀態：將連續維度離散化為 256 個 bin。

動作注意力掩碼（Action Attention Masking）：在離散動作生成中，通過修改 Attention Mask，使得當前動作僅依賴于文本和視覺輸入，而無法看到之前的動作 Token，從而阻斷自回歸過程中的誤差累積。

Action Transformer：引入一個連續動作頭（類似于 ACT），通過并行解碼生成平滑的動作軌跡，解決離散模型的過擬合與抖動問題。

達到的效果

仿真實驗（LIBERO）：RynnVLA-002-Continuous 取得了 97.4% 的平均成功率，在 Spatial、Object、Goal 和 Long 任務上均表現優異。優于 OpenVLA、SpatialVLA、等強基線模型，且無需大規模機器人操作預訓練數據。

真機實驗（LeRobot SO100）：在干擾物（Distractors）和多目標（Multi-Target）場景下表現出極強的魯棒性。相比 GR00T N1.5 和，在復雜場景下的成功率高出 10% 到 30%。

互補驗證：消融實驗證明，引入世界模型數據訓練顯著提升了 VLA 的操作成功率（尤其是抓取任務），反之 VLA 數據也提升了世界模型的視頻生成質量。

方法框架

概覽

RynnVLA-002 的整體架構旨在統一體現式 AI 的兩大基礎模型：

VLA 模型：策略根據語言目標、本體感知狀態和歷史觀測生成動作：

世界模型：模型根據過去觀測和動作預測下一個觀測：

本工作混合了 VLA 模型數據和世界模型數據來訓練 RynnVLA-002，這是一個整合模型，共享參數組。這種雙重特性使得模型可以根據用戶查詢，靈活地作為 VLA 或世界模型運行。

RynnVLA-002 概覽。RynnVLA-002 在訓練過程中涉及 VLA 模型數據和世界模型數據。

數據Tokenization

Tokenizers：模型初始化自 Chameleon。涉及四種 Tokenizer：圖像、文本、狀態和動作。

圖像：使用 VQ-GAN，并增加了針對特定區域（如人臉、顯著物體）的感知損失。圖像被編碼為離散 Token（圖像對應 256 個 Token）。

文本：BPE Tokenizer。

狀態與動作：將機器人本體狀態和動作的每個連續維度離散化為 256 個區間（bin）之一。

詞表：所有模態的 Token 共享一個大小為 65536 的詞表。連續動作則通過 Action Transformer 生成原始數值，不進行 Token 化。

VLA 模型數據結構：

Token 序列為 {text} {state} {image-front-wrist} {action}。模型根據指令、狀態和個歷史圖像生成個動作塊（Action Chunk）。

世界模型數據結構： Token 序列為 {text} {images-front-wrist} {action} {images-front-wrist}。任務是根據當前圖像和動作生成下一幀圖像。文本前綴統一為“Generate the next frame based on the current image and the action.”。

訓練目標：混合兩種數據進行訓練，總損失函數為。

動作塊生成

離散動作塊的注意力掩碼 (Attention Mask for Discrete Action Chunk) ：為了提高效率和成功率，模型需要生成多個動作。然而，傳統的自回歸方式會導致誤差傳播，即早期動作的錯誤會影響后續動作。為此，本工作設計了一種特定的 動作注意力掩碼 (Action Attention Mask)（如圖 3(b) 所示）。該掩碼確當前動作的生成僅依賴于文本和視覺輸入，而禁止訪問先前的動作 Token。這種設計使得自回歸框架能夠獨立生成多個動作，有效緩解了誤差累積問題。

連續動作塊的 Action Transformer (Action Transformer for Continuous Action Chunk) ：盡管離散模型在仿真中表現尚可，但在真實世界中由于光照、物體位置等動態變量，表現不佳且動作不平滑。為此，本工作增加了一個 Action Transformer 模塊：

原理：處理完整的上下文（語言、圖像、狀態 Token），并利用可學習的 Action Queries 并行輸出整個動作塊（Action Chunk）。

優勢：架構更緊湊，不易在有限數據上過擬合；并行生成所有動作，推理速度顯著快于順序生成的自回歸基線；生成的軌跡更平滑穩定。

損失函數：使用 L1 回歸損失。

最終總損失函數：

實驗

指標 (Metrics)本工作的評估分為兩部分。為了評估 VLA 模型，本工作測量其在每個任務 50 次部署展示（rollout）中的成功率，每次都在不同的狀態下初始化。為了評估世界模型，本工作使用四個標準指標在保留驗證集上測量其視頻預測準確性：Fréchet 視頻距離 (FVD)、峰值信噪比 (PSNR)、結構相似性指數 (SSIM) 和學習感知圖像塊相似度 (LPIPS)。

基準測試結果 (Benchmark Results)本工作分別評估了離散動作和連續動作的性能。如下表1 所示，本工作的 RynnVLA-002 在離散動作下達到了 93.3% 的高成功率，在連續動作下達到了 97.4% 的高成功率，證明了本工作核心設計原則的有效性：聯合學習 VLA 建模和世界建模、用于離散動作生成的注意力掩碼（attention mask）機制，以及添加的連續動作 Transformer (Action Transformer)。令人驚訝的是，即使沒有任何預訓練，本工作的 RynnVLA-002 仍然與在 LIBERO-90 或大規模真實機器人數據集上預訓練的強基線模型表現相當。

真實世界機器人結果

數據集 (Datasets)

本工作整理了一個使用 LeRobot SO100 機械臂收集的新真實世界操作數據集。所有軌跡均通過人類遠程操作獲得的專家演示。本工作定義了兩個抓取和放置任務進行評估： (1) 將方塊放入圓圈內：強調基本的物體檢測和抓取執行（248 個演示）； (2) 將草莓放入杯子中：需要細粒度的定位和抓取點預測（249 個演示）。

基線 (Baselines)

本工作與兩個強大的開源基線進行了比較：GR00T N1.5 和。對于這兩種方法，本工作從官方預訓練檢查點進行初始化，并在用于本模型的同一 SO100 數據集上對其進行微調。本工作采用這些基線官方代碼庫中的相同配方進行微調。

評估 (Evaluation)

如圖 4 所示，本工作的評估涵蓋三種場景：

單目標操作 (Single-target) ：桌面上僅有一個目標物體；

多目標操作 (Multi-target) ：存在多個目標物體；

帶干擾物的指令跟隨 (Instruction-following with distractors) ：目標物體和干擾物同時出現。

如果機器人在預定義的時間預算內將至少一個目標物體放入指定位置，則視為試驗成功。如果發生以下情況，則試驗失敗：(1) 超出時間限制；(2) 機器人在一個目標上累計超過五次連續的抓取失敗嘗試；(3) 在帶干擾物的指令跟隨設置中，智能體嘗試操作任何干擾物體。每個任務測試 10 次，本工作報告成功率。

結果

下表 2 展示了真實世界機器人的實驗結果。RynnVLA-002 在沒有預訓練的情況下，取得了與 GR00T N1.5和具有競爭力的結果。值得注意的是，RynnVLA-002 在雜亂環境中的表現優于基線。例如，在“放置方塊”任務的多目標任務和充滿干擾物的場景中，RynnVLA-002 的成功率均超過 80%，超過基線 10% 到 30%。

消融實驗

世界模型反哺 VLA：在 LIBERO 上，加入世界數據后，離散動作平均成功率從 62.8% → 78.1%；真實機器人若缺世界數據，成功率直接掉至 30% 以下。可視化發現，聯合訓練后機械臂會“主動重試”抓取，說明其對物體動態關注度更高。

VLA 反哺世界模型：混合訓練后的世界模型在 FVD、PSNR、SSIM、LPIPS 上持平或優于純 World 模型；視頻可視化顯示，基線世界模型常漏預測“碗被成功抓起”的關鍵幀，而本文模型能準確生成抓取過程中的接觸與抬升。

離散動作 token 的預訓練作用：把離散動作 token 作為連續頭的輔助輸入，可顯著加速收斂（圖 8）。

腕部相機 & 本體狀態：在真實場景缺一不可；缺失時任一組件都會導致抓取時機錯誤或完全失敗。

效率與 chunk 長度：連續動作推理頻率幾乎隨 chunk 長度線性增長，48 Hz 下仍保持 97% 成功率；離散動作通過 chunking 也能將單步 2.5 Hz 提升到 3.7 Hz。

世界模型預訓練：先純粹用世界數據預訓練 1 階段，再切入 VLA 任務，可將“Goal”類任務從 67.3% 提升到 73.1%，驗證“物理知識冷啟動”對后續策略學習有效。

總結

RynnVLA-002，一個統一的框架，它將 VLA 和世界模型集成在一起，并證明了它們之間能夠相互增強。通過這一貢獻，本工作旨在為具身智能（Embodied AI）研究社區提供一種具體的方法論，以實現 VLA 與世界模型之間的協同作用。此外，本工作相信這項研究有助于為跨越文本、視覺和動作的多模態理解與生成奠定統一的基礎。

參考文獻

[1] RynnVLA-002: A Unified Vision-Language-Action and World Model

原文標題 : 重磅！阿里達摩院發布首個VLA與世界模型統一架構RynnVLA-002：97.4%成功率刷新認知