“世界模型”到底是個啥？OpenWorldLib一錘定音：感知+交互+記憶，這才叫理解世界的AI！

2026-04-09 15:12

AI生成未來

關(guān)注

作者：Bohan Zeng等

解讀：AI生成未來

亮點直擊

標準化定義：針對學術(shù)界對“世界模型”定義的模糊性，本文提出了一個清晰的定義：以感知為中心，具備交互和長期記憶能力，用于理解和預測復雜世界的模型或框架。

統(tǒng)一推理框架：開發(fā)了 OpenWorldLib，將交互式視頻生成、3D 生成、多模態(tài)推理和視覺-語言-動作（VLA）等多種任務集成在統(tǒng)一的工程實現(xiàn)下。

能力系統(tǒng)化分類：系統(tǒng)地梳理了世界模型應具備的核心能力，并明確劃分了哪些任務（如純文本轉(zhuǎn)視頻）不應被歸類為真正的世界模型研究。

解決的問題

目前世界模型研究雖然火熱，但存在兩個核心痛點：

定義不一：研究者對世界模型的邊界缺乏共識，導致許多生成任務（如 Sora）被誤認為完整的世界模擬器。

工程分散：不同類型的世界模型任務（感知、預測、動作）往往使用完全不同的底層架構(gòu)和推理流程，難以協(xié)同工作。

提出的方案與應用技術(shù)

本工作提出了 OpenWorldLib 框架，其核心設計包含以下五個功能模塊及一個調(diào)度中心：

Operator（算子模塊）：負責多模態(tài)輸入的標準化預處理與校驗。

Synthesis（合成模塊）：涵蓋視覺（視頻/圖像）、音頻以及物理信號（如 VLA 控制指令）的生成，實現(xiàn)模型的隱式表示。

Reasoning（推理模塊）：包含通用多模態(tài)推理、空間推理及音頻推理，使模型能理解復雜的物理規(guī)律。

Representation（表示模塊）：支持 3D 重建和仿真環(huán)境接口，提供顯式的物理世界結(jié)構(gòu)信息。

Memory（記憶模塊）：管理長期交互歷史，支持上下文檢索、壓縮和狀態(tài)更新。

Pipeline：作為頂層調(diào)度 entry，協(xié)調(diào)各模塊完成單次或多輪流式交互任務。

達到的效果

OpenWorldLib 成功標準化的調(diào)用了包括 Cosmos、Hunyuan、VGGT 和在內(nèi)的多種前沿模型，在交互式視頻生成、3D 場景重建、復雜空間推理和具身智能（VLA）任務中實現(xiàn)了高效的協(xié)同推理。

背景與相關(guān)工作

世界模型通常由三個核心條件概率分布定義：

其中表示隱狀態(tài)，其本質(zhì)上整合了記憶存儲，用以管理復雜任務的長程依賴；代表時刻的動作，來自于已被拓寬至涵蓋多樣化操作和特定任務輸出（如生成和操縱）的動作空間；是感知觀測（例如視覺、音頻或本體感受）；而是通過動作與環(huán)境交互獲得的獎勵。

盡管這些公式被廣泛使用，但許多任務在形式上雖然滿足此類條件概率分布，卻并未真正服務于世界模型的核心目的。這些任務往往與世界模型研究混為一談，或被籠統(tǒng)地貼上其標簽。因此，在本節(jié)中，本工作結(jié)合前人提出的定義以及本文倡導的觀點，清晰地劃定哪些任務屬于真正的世界模型研究范疇，哪些則不然。

世界模型相關(guān)任務

交互式視頻生成。下一幀預測被世界模型研究者視為最受認可的范式，確立了交互式視頻生成作為該領域研究的主要重心。早期方法主要依賴基于回歸的模型來預測后續(xù)幀。最近，該領域已轉(zhuǎn)向利用擴散模型以實現(xiàn)更高質(zhì)量的交互式視頻生成，統(tǒng)一的多模態(tài)方法進一步提升了生成的保真度和可控性。隨著擴散模型推理速度的加快，游戲視頻生成和相機控制的視頻生成已成為一個特別引人注目的領域。此外，視頻預測范式已成功集成到視覺-語言-動作（VLA）模型和自動駕駛系統(tǒng)中。通過引入下一幀預測估計，這些模型在預測能力上的穩(wěn)定性和魯棒性得到了顯著增強。然而，雖然交互式視頻生成仍是當前世界模型研究的基石，但值得注意的是，下一幀預測并非唯一的實現(xiàn)范式。考慮到世界模型的終極目標是促進在復雜環(huán)境中的長期交互，探索替代或互補的表示范式同樣至關(guān)重要。

多模態(tài)推理。世界模型的關(guān)鍵能力在于對復雜物理世界的深刻理解；因此，多模態(tài)推理是世界模型能力的關(guān)鍵體現(xiàn)。與世界模型緊密相關(guān)的多模態(tài)推理任務不僅涵蓋空間推理和全能推理，還包括時間推理、因果推理。近期，除了傳統(tǒng)的顯式推理方法，利用隱式推理分析真實世界中的復雜動力學已成為一個顯著的研究熱點。通過擺脫大語言模型（LLMs）傳統(tǒng)的以文本為中心的預訓練范式，隱式推理機制使模型能夠更有效地攝取和處理真實世界中固有的復雜、高維且連續(xù)的信息。

視覺-語言-動作。世界模型的最終目標是使智能體能夠與物理世界交互，而具身設備是與復雜環(huán)境交互的主要代表。因此，視覺-語言-動作（VLA）已成為世界模型必須支持的一項關(guān)鍵能力。在機器人臂操縱領域，近期的研究主要遵循兩條路徑：利用多模態(tài)大語言模型（MLLMs）直接預測動作，或者將動作預測與視頻生成相結(jié)合，通過未來幀預測來輔助動作規(guī)劃。此外，這種 VLA 范式正被廣泛應用于更復雜的具身場景，包括動力學極度復雜且難以控制的移動機器人，以及在極其廣闊的環(huán)境中運行的自動駕駛系統(tǒng)，從而推進了模型在真實世界中的閉環(huán)交互能力。

3D與模擬器在世界模型中的作用

除了直接依賴可觀測感知的任務外，世界模型的一個關(guān)鍵部分涉及處理虛擬環(huán)境。為了確保物理空間在長期交互過程中保持一致，研究人員經(jīng)常使用模擬器讓模型以結(jié)構(gòu)化的方式學習。雖然交互式視頻生成創(chuàng)造了對未來的視覺猜測，但 3D 表示提供了一個可以嚴格遵循物理規(guī)則的可驗證環(huán)境。

在此背景下，3D 生成與重建對于維持穩(wěn)定的世界狀態(tài)至關(guān)重要。近期工作如 VGGT、InfiniteVGGT 和 OmniVGGT 使用視覺幾何導向的 Transformer 將圖像輸入與真實的幾何結(jié)構(gòu)聯(lián)系起來。為了處理來自真實世界的連續(xù)數(shù)據(jù)，一些模型現(xiàn)在維持著持久的 3D 狀態(tài)，或利用混合記憶進行長上下文重建，確保即使在智能體移動時環(huán)境也保持不變。此外，度量 3D 重建、深度估計和廣角視圖合成中的新方法允許世界模型從任何相機角度恢復準確的物理空間。通過學習置換等變（permutation-equivariant）視覺幾何，這些模型可以在不同類型的物理設置中更好地工作。

此外，模擬器充當了世界模型的“沙盒”，幫助它們從抽象思考轉(zhuǎn)向真實的物理動作。為了使這些模擬器能夠?qū)崟r工作，快速的場景生成是必要的。例如，F(xiàn)lashWorld 和 Hunyuan 系列可以在極短的時間內(nèi)創(chuàng)建高質(zhì)量的 3D 場景或資產(chǎn)，為世界模型提供了一個即時測試其想法的場所。近期的調(diào)查還探索了在這些 3D 生成過程中進行強化學習的潛力。通過使用這些顯式的 3D 表示和模擬工具，世界模型可以超越僅僅預測像素，真正理解真實世界的物理規(guī)律。

不被視為世界模型的方法

除了與世界模型相關(guān)的任務外，某些應用雖未真正反映世界模型的能力，卻頻繁出現(xiàn)在類似的討論中。基于本文的公式和對世界模型的具體定義，本節(jié)明確了哪些任務不屬于這一類別。

一個突出的誤解例子是文本轉(zhuǎn)視頻生成。當 Sora 發(fā)布時，許多人將其標記為“世界模擬器”。然而，有觀點認為 Sora 并不構(gòu)成一個完整的世界模擬器。雖然下一幀預測經(jīng)常與世界模型聯(lián)系在一起，但本文的定義強調(diào)，關(guān)鍵不在于輸出格式，而在于模型是否利用多模態(tài)輸入來分析和識別環(huán)境。下一幀預測僅作為一種格式。真正重要的是模型是否準確地理解復雜的物理規(guī)律并與世界交互。文本轉(zhuǎn)視頻生成缺乏這種復雜的感知輸入。盡管生成視頻展示了對物理的一定理解，但它仍處于世界模型核心任務之外。

類似地，一些任務如代碼生成或網(wǎng)頁搜索，借用了世界模型的長期交互結(jié)構(gòu)用于其他領域。然而，這些任務通常缺乏多模態(tài)輸入，且不涉及理解物理世界。雖然將這種結(jié)構(gòu)應用于新領域帶來了有趣的機遇，但這些任務并不符合真正的世界模型標準。

即便是一些實際上涉及多模態(tài)和長期交互的應用，如化身（avatar）視頻生成，也不一定符合定義。這些任務主要聚焦于娛樂，由于它們與探索或理解復雜的物理世界關(guān)系不大，因此不代表世界模型的主要關(guān)注點。

OpenWorldLib 框架設計

基于前面，世界模型需要具備以下能力：接收來自復雜物理世界的輸入、理解物理世界、在交互過程中維持長期記憶，并支持多模態(tài)輸出。盡管已有研究提出過統(tǒng)一世界模型框架的設計，但其缺乏具體的工程實現(xiàn)乃至統(tǒng)一的標準。本節(jié)詳細介紹了 OpenWorldLib 框架的具體設計，如圖 2 所示。

Operator（算子模塊）

在 OpenWorldLib 框架中，Operator 模塊充當了原始用戶輸入（或環(huán)境信號）與核心執(zhí)行模塊（合成、推理和表示）之間的關(guān)鍵橋梁。由于世界模型必須處理來自物理世界的復雜、多模態(tài)輸入——如文本提示詞、圖像、連續(xù)控制動作和音頻信號——Operator 旨在對這些多樣的輸入流進行標準化。

具體而言，當 Pipeline 被調(diào)用時，它會將原始輸入通過 Operator 的 process() 方法進行路由。Operator 負責兩項主要功能：

校驗：確保輸入數(shù)據(jù)的格式、形狀和類型滿足下游模型的要求。

預處理：將原始信號轉(zhuǎn)換為標準化的張量表示或結(jié)構(gòu)化格式（例如，調(diào)整圖像大小、對文本進行標記化或?qū)幼骺臻g進行歸一化）。

為了方便集成新的世界模型方法，本文定義了一個統(tǒng)一的 Operator 模板。所有特定任務的算子都繼承自此基類，確保整個代碼庫擁有統(tǒng)一的 API。Operator 的定義見清單1。

Synthesis 模塊

如圖3中的隱式表示部分所示，世界模型的一項核心能力是利用內(nèi)部學習到的動力學，通過環(huán)境反饋生成視覺、聽覺和其他感官結(jié)果。本文將這種隱式生成過程定義為模型的隱式表示。在 OpenWorldLib 框架中，Synthesis 模塊充當了上游流水線的標準化條件與用戶、模擬器或機器人棧實際消費的多模態(tài)輸出（視覺、聽覺和具身動作）之間的生成橋梁。由于世界模型必須不僅將預測實現(xiàn)為內(nèi)部狀態(tài)，還要實現(xiàn)為可觀測的媒體和可執(zhí)行的指令，因此 Synthesis 模塊托管了異構(gòu)的生成后端，同時保持了跨模態(tài)的一致集成模式。

具體而言，當 Pipeline 運行生成路徑時，它會將算子對齊的輸入傳遞給相應的合成后端，后者在特定模態(tài)的控制下進行推理，并返回結(jié)構(gòu)化的偽影以及用于導出、評估或記憶的簡明元數(shù)據(jù)。以下子節(jié)將展開介紹該模塊的視覺、音頻及其他物理信號合成分支。

視覺合成

視覺合成層涵蓋了 OpenWorldLib 中面向圖像和視頻的生成：它將結(jié)構(gòu)化的條件（如文本提示詞、參考圖像或場景級規(guī)格）轉(zhuǎn)化為光柵輸出（幀張量、解碼后的剪輯或 API 返回的資產(chǎn)），并附帶元數(shù)據(jù)。通過這種方式，框架可以提供場景隨時間演變的直觀預測，這對于交互式模擬、定性檢查以及一眼對比備選未來或相機路徑至關(guān)重要。

在實踐中，視覺合成層圍繞以下職責進行組織：

生成棧組合：將文本編碼器、隱式解碼器以及基于擴散或流匹配的核心與適合每項任務的調(diào)度器或求解器相結(jié)合，并暴露空間分辨率、時間范圍（幀預算）和引導類參數(shù)的調(diào)節(jié)旋鈕。集成界面：支持由檢查點驅(qū)動的流水線（從預訓練資源統(tǒng)一構(gòu)建和無梯度推理）以及通過端點和憑據(jù)進行身份驗證的托管服務封裝器，使得本地和遠程生成器共享相同的概念調(diào)用模式。音頻合成

音頻合成層

專注于在結(jié)構(gòu)化條件下生成連續(xù)波形。其角色是提供多模態(tài)輸出的聽覺側(cè)，使場景不局限于無聲視頻或僅文本的反饋，這對于感知豐富的環(huán)境以及判斷聲音與視覺之間的對齊至關(guān)重要。

具體而言，音頻合成層履行以下角色：

資源裝配：通過單一的工廠風格入口點實例化神經(jīng)音頻生成器及任何輔助模塊，并具有明確的設備和可重復性設置。

條件波形合成：通過統(tǒng)一的推理入口點將算子準備的張量和提示詞映射到音頻輸出。

其他信號合成

除了視覺和音頻模態(tài)外，與環(huán)境的全面交互還要求世界模型生成多樣的物理信號。其中，動作控制證明是極其關(guān)鍵的。OpenWorldLib 因此在該模塊內(nèi)重點強調(diào)了視覺-語言-動作（VLA）信號生成。該合成層針對具身任務量身定制，并實現(xiàn)以下功能：

策略初始化與空間對齊：從預訓練權(quán)重加載專門的物理策略，將多樣的動作表示映射到與目標模擬器或機器人硬件兼容的統(tǒng)一接口。

上下文條件動作合成：將豐富的多模態(tài)上下文（如實時視覺流、文本目標和本體感受歷史）轉(zhuǎn)化為落地的物理指令。

Reasoning 模塊

從圖3的隱式表示部分來看，世界模型必須超越單純的感知去理解物理世界：在任何下游生成或動作發(fā)生之前，推斷空間關(guān)系、整合多模態(tài)上下文并生成落地的語義解釋。為此，OpenWorldLib 引入了一個專門的 Reasoning 模塊。具體而言，Reasoning 模塊組織為三個子類：

通用推理：能夠以統(tǒng)一方式處理文本、圖像、音頻和視頻的多模態(tài)大語言模型（MLLMs）。

空間推理：專門從視覺觀測中進行 3D 空間理解和物體定位的模型。

音頻推理：解釋并對聽覺信號進行推理的模型。

為了促進新的面向推理的世界模型方法的集成，定義了一個統(tǒng)一的 BaseReasoning 模板。所有特定于任務的推理類都繼承自這個基類，確保整個代碼庫的 API 一致。BaseReasoning 的定義如清單 3 所示。

Representation 模塊

除了利用內(nèi)部能力理解世界的模型外，一些方法旨在構(gòu)建人為定義的模擬器，如 3D 網(wǎng)格。這些模擬器為世界模型框架提供了一個可測試的環(huán)境。由于這些結(jié)構(gòu)化表示不同于可直接從世界收集的感知數(shù)據(jù)，本文單獨設計了 Representation 模塊以處理這些顯式表示。其主要功能包括：

3D 重建：將輸入數(shù)據(jù)轉(zhuǎn)換為顯式的 3D 輸出，如點云、深度圖和相機位姿。

模擬支持：創(chuàng)建一個手動環(huán)境，世界模型可以在其中測試其推理，并驗證其預測的動作在坐標系中是否正確。

服務集成：支持本地推理和基于云的 API，幫助將這些顯式表示導出到外部物理引擎。

為了標準化這些模型的使用方式，我們提供了一個統(tǒng)一的 BaseRepresentation 模板。所有特定于任務的表示類都繼承自這個基類，以確保一致的 API。BaseRepresentation 的定義如清單 4 所示。

Memory 模塊

長期上下文記憶對于交互式世界模型維持歷史觀測、推理鏈和交互狀態(tài)至關(guān)重要。OpenWorldLib 設計了一個統(tǒng)一的 Memory 模塊來管理多模態(tài)交互歷史。它履行以下功能：

歷史存儲：存儲跨交互的文本、視覺特征、動作軌跡和場景狀態(tài)。

上下文檢索：選擇相關(guān)的歷史以支持一致的推理和生成。

狀態(tài)更新：在每次流水線執(zhí)行后記錄新的交互結(jié)果。

會話管理：為不同任務和會話支持獨立的記憶。

為了統(tǒng)一內(nèi)存管理，定義了一個統(tǒng)一的 BaseMemory 模板。所有特定于任務的內(nèi)存類都繼承自此基類。BaseMemory 的定義如清單 5 所示。

Pipeline

為了將上述模塊整合進一個內(nèi)聚且可用的系統(tǒng)，OpenWorldLib 提供了一個統(tǒng)一的 Pipeline 模塊作為頂層調(diào)度和執(zhí)行入口。Pipeline 封裝了模型初始化、數(shù)據(jù)流、模塊調(diào)用、記憶交互和結(jié)果后處理，使得通過簡單一致的 API 即可實現(xiàn)端到端的世界模型推理。

Pipeline 遵循標準的前向執(zhí)行流程：它接收原始輸入，路由至 Operator 進行校驗預處理，向 Memory 查詢歷史上下文，協(xié)調(diào) Reasoning、Synthesis 和 Representation 進行核心計算，最后返回結(jié)構(gòu)化輸出并更新記憶。Pipeline 的核心職責包括：

統(tǒng)一模型初始化：通過單一接口加載所有子模塊。

端到端推理：為單輪世界模型任務實現(xiàn)一鍵式前向推理。

多輪交互執(zhí)行：通過帶有自動記憶讀寫的 stream() 方法支持有狀態(tài)的持續(xù)交互。

模塊化編排：根據(jù)任務類型動態(tài)調(diào)用模塊，無需修改內(nèi)部邏輯。

結(jié)果結(jié)構(gòu)化：將輸出組織為標準化格式，用于可視化、評估、日志記錄或下游控制系統(tǒng)。

為了保持框架范圍內(nèi)的一致性，所有特定于任務的管道都繼承自統(tǒng)一的 BasePipeline 模板。其定義如清單 6 所示。

討論

OpenWorldLib 旨在為世界模型提供更清晰、更標準化的定義和框架。其目標是促進世界模型的發(fā)展，使 AI 能夠更好地在復雜環(huán)境中協(xié)助人類。在本節(jié)中，本文討論世界模型的未來發(fā)展方向。

許多當前的世界模型架構(gòu)聚焦于下一幀預測。這種方法符合人類處理高密度感官輸入的方式，因為人類本質(zhì)上是在物理世界中進行“預訓練”的，而大型模型則是在海量互聯(lián)網(wǎng)文本語料庫上預訓練的。然而，基于現(xiàn)有架構(gòu)，視覺語言模型（VLMs）可能提供一種切實的解決方案。例如，Bagel 成功地利用 Qwen 架構(gòu)實現(xiàn)了多模態(tài)推理和多模態(tài)生成。這證明了在互聯(lián)網(wǎng)數(shù)據(jù)上預訓練的大語言模型（LLMs）可以具備世界模型所需的所有能力，展現(xiàn)了它們作為基礎底座的潛力。因此，在完全專注于世界模型的特定結(jié)構(gòu)設計之前，我們應首先考慮如何實現(xiàn)其所有必要的功能以實現(xiàn)與復雜世界的真實且有效的交互。此外，由于 LLMs 作為世界模型的基礎支柱，以數(shù)據(jù)為中心的方法論——包括多模態(tài)數(shù)據(jù)合成、領域特定數(shù)據(jù)增強、動態(tài)訓練和訓練數(shù)據(jù)質(zhì)量評估——將在強化支撐世界模型能力的底座模型中發(fā)揮日益重要的作用。

在現(xiàn)實世界的交互中，下一幀預測相較于下一標記（next-token）預測保留了更多信息，但其效率需要顯著提升。這種效率的改進必須從硬件層面開始。目前的計算機字節(jié)組織天然有利于下一標記預測。即使當模型嘗試下一幀預測時，數(shù)據(jù)在實際計算過程中仍被處理為標記（tokens）。為了實現(xiàn)理想的世界模型，我們需要硬件迭代、底座模型結(jié)構(gòu)的改變（基于標記的 Transformer 可能需要演化），以及復雜物理世界交互任務的全方位實現(xiàn)。

實驗總結(jié)

本文在 NVIDIA A800 和 H200 GPU 上進行了廣泛測試：

交互式視頻生成：對比了 Matrix-Game-2、Hunyuan 和 Cosmos 等模型。實驗證明 Cosmos 在物理真實感和復雜交互操作上具有顯著優(yōu)勢。

多模態(tài)推理：評估了模型在處理圖像、視頻及音頻證據(jù)并生成可靠結(jié)論的能力。

3D 生成：測試了 VGGT 等模型在不同視角下的重建效果，指出在大尺度相機移動時保持幾何一致性仍是挑戰(zhàn)。

VLA 評價：利用 AI2-THOR 和 LIBERO 仿真環(huán)境驗證了具身智能體的動作規(guī)劃能力。