告別時(shí)空崩壞，生成式游戲迎來“穩(wěn)態(tài)”時(shí)刻！南大等StableWorld：打造無限續(xù)航虛擬世界

2026-01-26 16:22

作者：Ying Yang等

解讀：AI生成未來

亮點(diǎn)直擊

識(shí)別了長(zhǎng)時(shí)交互式世界建模中不穩(wěn)定性的根本原因：同一場(chǎng)景內(nèi)的微小漂移會(huì)不斷累積，最終導(dǎo)致整體場(chǎng)景崩潰。

一種簡(jiǎn)單而有效的方法 StableWorld，通過一種動(dòng)態(tài)幀剔除機(jī)制（dynamic frame eviction），從源頭上有效防止誤差累積，同時(shí)保持運(yùn)動(dòng)的連續(xù)性。

在多種交互式世界模型上驗(yàn)證了該方法的有效性，包括 Matrix-Game 2.0、Open Oasis 以及 Hunyuan-GameCraft 1.0，并覆蓋了多種場(chǎng)景條件（靜態(tài)場(chǎng)景、小/大幅運(yùn)動(dòng)以及顯著視角變化）。大量實(shí)驗(yàn)結(jié)果表明，該方法在穩(wěn)定性、長(zhǎng)期一致性以及跨交互場(chǎng)景的泛化能力方面均取得了持續(xù)而顯著的提升。

圖 1.StableWorld：在自然景觀和游戲世界等不同環(huán)境中生成穩(wěn)定且視覺一致的交互式視頻，同時(shí)保持連續(xù)運(yùn)動(dòng)控制并防止長(zhǎng)期場(chǎng)景漂移

總結(jié)速覽

解決的問題

當(dāng)前交互式視頻生成模型（如世界模型）在生成長(zhǎng)時(shí)間序列時(shí)，存在嚴(yán)重的穩(wěn)定性不足與時(shí)間不一致性問題，表現(xiàn)為空間漂移和場(chǎng)景崩塌。

即使在沒有交互或靜態(tài)場(chǎng)景下，模型也會(huì)因誤差累積導(dǎo)致生成幀逐漸偏離初始狀態(tài)，破壞時(shí)間一致性。

提出的方案

提出 StableWorld 框架，其核心是動(dòng)態(tài)幀淘汰機(jī)制。

在滑動(dòng)窗口生成過程中，動(dòng)態(tài)評(píng)估并保留幾何一致性的關(guān)鍵幀（尤其是早期較“干凈”的幀），淘汰退化或冗余的中間幀，從而從源頭抑制誤差累積。

應(yīng)用的技術(shù)

使用 ORB + RANSAC 算法計(jì)算視角重疊度，以評(píng)估幀間幾何一致性。

采用 KV-cache 窗口擴(kuò)展分析作為技術(shù)依據(jù)，驗(yàn)證引入更早、更干凈的參考幀能有效穩(wěn)定生成。

通過幀間均方誤差（MSE）量化漂移積累，用于現(xiàn)象分析與驗(yàn)證。

達(dá)到的效果

顯著提升穩(wěn)定性與時(shí)間一致性：有效緩解長(zhǎng)序列生成中的場(chǎng)景崩塌和空間漂移問題。

模型無關(guān)性：在多個(gè)交互式視頻生成框架（如 Matrix-Game, Open-Oasis, Hunyuan-GameCraft）上均驗(yàn)證有效，具備良好泛化能力。

保持適應(yīng)性：在抑制累積誤差的同時(shí)，不影響模型對(duì)大幅運(yùn)動(dòng)和場(chǎng)景轉(zhuǎn)換的響應(yīng)能力。

方法

預(yù)備知識(shí)

視頻生成模型。視頻生成模型通常采用全序列生成方法，即在給定條件下一次性從噪聲生成所有幀。形式上，生成過程可以定義為：

其中表示第幀在第個(gè)去噪步的狀態(tài)，，為生成的總幀數(shù)。在每個(gè)時(shí)間步，所有幀共享相同的噪聲方差，遵循統(tǒng)一的噪聲調(diào)度。盡管這種方法能獲得高質(zhì)量的結(jié)果，但單次前向傳遞對(duì)整個(gè)序列建模會(huì)產(chǎn)生高昂的計(jì)算成本，并不適用于實(shí)時(shí)交互場(chǎng)景。

交互式視頻生成。與全序列模型不同，交互式視頻生成采用自回歸范式，每一幀的生成都以部分歷史幀和當(dāng)前動(dòng)作為條件。這種條件生成表示為，其中表示保存在記憶緩沖區(qū)中的選定參考幀，代表在第步用戶發(fā)出或代理驅(qū)動(dòng)的動(dòng)作。這種范式允許模型根據(jù)用戶動(dòng)作按順序生成幀，從而實(shí)現(xiàn)實(shí)時(shí)交互和動(dòng)態(tài)場(chǎng)景控制。

大多數(shù)近期的方法進(jìn)一步結(jié)合了擴(kuò)散和自回歸范式：擴(kuò)散模型用于幀內(nèi)去噪，而自回歸用于捕捉幀間的時(shí)間依賴性。形式上，整體生成過程可以表示為：

其中表示擴(kuò)散時(shí)間步下的第幀。在每個(gè)擴(kuò)散步，模型以先前生成的幀和當(dāng)前動(dòng)作為條件，將去噪為。該公式融合了每幀內(nèi)的空間去噪和跨幀的時(shí)間依賴性，實(shí)現(xiàn)了高質(zhì)量且實(shí)時(shí)的交互式視頻生成。

場(chǎng)景崩塌的原因

盡管交互式視頻生成模型可以產(chǎn)生連貫的短期序列，但在長(zhǎng)時(shí)間生成過程中，它們?nèi)詢A向于出現(xiàn)漸進(jìn)式的場(chǎng)景崩塌，特別是當(dāng)場(chǎng)景在很長(zhǎng)一段時(shí)間內(nèi)保持高度相似時(shí)（如下圖2 所示）。相比之下，當(dāng)場(chǎng)景頻繁切換、模型不斷遇到新的視覺條件時(shí)，這種崩塌很少發(fā)生（如下圖6 所示）。這種對(duì)比表明，崩塌在很大程度上并非由動(dòng)作控制或運(yùn)動(dòng)復(fù)雜性引起，而是與視覺信息如何在同一場(chǎng)景隨時(shí)間推移的保存和傳播有關(guān)。

為了理解這一行為，本工作測(cè)量了幀間均方誤差（MSE）距離，以量化幀差異如何在單個(gè)靜態(tài)場(chǎng)景的序列推進(jìn)中變化，如下圖3所示。左側(cè)兩圖展示了在潛在空間中不同間隔（1, 5, 10, 20）下的幀間漂移。觀察發(fā)現(xiàn)，雖然相鄰幀僅表現(xiàn)出微小的差異，但這些小漂移隨著序列的延長(zhǎng)逐漸累積。在較大間隔（如 10 或 20）上比較的幀顯示出顯著更大的漂移。由于這種偏差已存在于潛在空間中，像素空間也表現(xiàn)出類似的漂移模式（如右側(cè)兩圖所示），最終表現(xiàn)為視覺不一致和場(chǎng)景崩塌（上圖2）。這些觀察表明，同一場(chǎng)景內(nèi)的漂移隨時(shí)間累積并傳播，最終導(dǎo)致全局場(chǎng)景崩塌。

基于這一觀察，本工作假設(shè)使用累積漂移較小的幀作為參考，可以為后續(xù)幀的生成提供更可靠的基礎(chǔ)。為了驗(yàn)證這一假設(shè)，本工作擴(kuò)大了 KV-cache 的窗口大小，允許模型訪問更清晰的幀，如下圖4所示。檢查了在不同歷史窗口大小下，每個(gè)目標(biāo)幀與第一幀之間的頻率幅度差異如何變化。在默認(rèn)設(shè)置下（窗口大小=9，圖 (a)），所有頻段都出現(xiàn)了巨大的波動(dòng)。隨著窗口大小增加到 36（圖 (b)）和 90（圖 (c)），整體波動(dòng)減緩，表明誤差累積部分減少。然而，這種改進(jìn)是以更高的計(jì)算開銷和更慢的生成速度為代價(jià)的，這限制了其實(shí)用性。

進(jìn)一步的分析表明，從較大窗口觀察到的穩(wěn)定性主要源于在參考緩沖區(qū)中保留了若干清晰的早期幀。例如，在圖 (d) 中，在固定大小的窗口內(nèi)保留少量可靠的早期幀會(huì)導(dǎo)致顯著更穩(wěn)定的生成，后期幀相對(duì)于第一幀表現(xiàn)出極小的漂移。這一發(fā)現(xiàn)強(qiáng)調(diào)了早期清晰幀的質(zhì)量和保存對(duì)于緩解累積誤差起著至關(guān)重要的作用。然而，當(dāng)發(fā)生大幅度運(yùn)動(dòng)或劇烈的場(chǎng)景轉(zhuǎn)換時(shí)，始終保留初始幀會(huì)變得具有局限性。如下圖7 所示，盡管兩種設(shè)置遵循相同的動(dòng)作指令，但嚴(yán)格保留早期幀的設(shè)置無法切換到新場(chǎng)景，這表明過度的保留阻礙了場(chǎng)景轉(zhuǎn)換。為了同時(shí)緩解累積漂移并保持生成新場(chǎng)景的靈活性，引入了 StableWorld，這是一個(gè)基于動(dòng)態(tài)幀剔除機(jī)制（見下圖5）的簡(jiǎn)單而有效的框架。

基于 ORB 幾何相似度的動(dòng)態(tài)幀剔除

為了確定是否發(fā)生場(chǎng)景轉(zhuǎn)換，本工作采用 ORB 特征匹配結(jié)合基于 RANSAC 的幾何驗(yàn)證來測(cè)量幀間相似度。當(dāng)推理階段沒有顯式的相機(jī)外參時(shí)，ORB 提供了一種替代方案，可以生成快速且旋轉(zhuǎn)不變的局部特征，使其非常適合檢測(cè)小幅相機(jī)運(yùn)動(dòng)下的幾何一致性。通過將這種相似度估計(jì)與動(dòng)態(tài)幀剔除策略相結(jié)合，本工作持續(xù)過濾掉退化的幀，同時(shí)保留幾何一致的幀，從而有效地防止跨動(dòng)態(tài)場(chǎng)景的誤差累積。

當(dāng)窗口需要滑動(dòng)時(shí)，必須剔除一些幀。為簡(jiǎn)單起見，假設(shè)每一幀對(duì)應(yīng)一個(gè) token，并且每次迭代生成一個(gè) token。設(shè) 表示窗口內(nèi)的潛在空間 token，表示它們對(duì)應(yīng)的像素空間幀，其中是窗口大小。窗口中較早的幀定義為，其中。這里，被視為參考幀，而被稱為中間幀。在每個(gè)更新步驟中，生成一個(gè)新幀，并相應(yīng)地剔除一個(gè)舊幀。

本工作使用以下策略確定應(yīng)剔除哪一幀。首先，通過從參考幀和中間幀中提取 ORB 特征來測(cè)量幾何相似度。設(shè) 和分別表示從和提取的 ORB 描述符集，其中和是每幀中檢測(cè)到的特征數(shù)量。候選對(duì)應(yīng)關(guān)系通過描述符空間中的最近鄰匹配獲得，隨后進(jìn)行 Lowe 比率測(cè)試：

其中是用于過濾模糊匹配的比率測(cè)試閾值，表示幸存的對(duì)應(yīng)關(guān)系數(shù)量。

然后使用 RANSAC 結(jié)合單應(yīng)性矩陣 (H) 和基礎(chǔ)矩陣 (F) 模型來驗(yàn)證中的匹配，以強(qiáng)制執(zhí)行幾何一致性：

其中和分別表示在估計(jì)的單應(yīng)性矩陣和基礎(chǔ)矩陣下評(píng)估的 Sampson 幾何誤差，和表示相應(yīng)的內(nèi)點(diǎn)對(duì)應(yīng)集。是用于內(nèi)點(diǎn)確定的預(yù)定義容差，誤差越小表示幾何對(duì)齊越好。本工作計(jì)算內(nèi)點(diǎn)比率：

其中和表示兩種模型下的內(nèi)點(diǎn)對(duì)應(yīng)數(shù)量。最終相似度分?jǐn)?shù)定義為：

如果相似度分?jǐn)?shù) 超過預(yù)定義閾值，則繼續(xù)對(duì)更遠(yuǎn)的幀進(jìn)行檢查。一旦幾何相似度低于，過程停止。最后，如果所有中間幀都滿足閾值，則剔除最遠(yuǎn)的幀。否則，剔除第一次失敗之前的幀（例如）。詳細(xì)過程和實(shí)現(xiàn)設(shè)置在附錄 A 中提供。

實(shí)驗(yàn)

全面的實(shí)驗(yàn)驗(yàn)證了 StableWorld 在不同模型和場(chǎng)景下的有效性。

評(píng)估指標(biāo)與設(shè)置

本工作在三個(gè)主要模型上進(jìn)行了驗(yàn)證：Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0。

數(shù)據(jù)集：涵蓋了自然場(chǎng)景、游戲場(chǎng)景以及包含小幅運(yùn)動(dòng)和大幅運(yùn)動(dòng)的多樣化視頻序列。

指標(biāo)：

VBench-Long：用于評(píng)估視頻質(zhì)量、美學(xué)質(zhì)量、動(dòng)態(tài)程度和時(shí)間一致性等多維度指標(biāo)。

用戶研究 (User Study)：邀請(qǐng) 20 位參與者對(duì)視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)平滑度進(jìn)行投票。

實(shí)現(xiàn)細(xì)節(jié)：對(duì)于不同的模型，設(shè)置了相應(yīng)的 KV-cache 窗口大小和關(guān)鍵幀比較策略。ORB 相似度閾值統(tǒng)一設(shè)置為 0.75。

定量結(jié)果 (Quantitative Results)

VBench-Long 評(píng)分：如下表1所示，StableWorld 在所有三個(gè)模型上均顯著提升了圖像質(zhì)量和美學(xué)質(zhì)量。

在 Matrix-Game 2.0 上，美學(xué)質(zhì)量提升了 14.61%。

在 Open-Oasis 上，圖像質(zhì)量提升了 7.38%。

在 Hunyuan-GameCraft 1.0 上，美學(xué)質(zhì)量提升了 9.06%。

雖然時(shí)間質(zhì)量和物理理解指標(biāo)變化不大（因?yàn)樵婺Ｐ偷谋浪鶎?dǎo)致靜態(tài)畫面，從而誤導(dǎo)了這些指標(biāo)），但 StableWorld 在大多數(shù)指標(biāo)上仍有一致提升，且計(jì)算延遲僅增加 1.00–1.02倍。

用戶研究：如下表2所示，StableWorld 在視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)平滑度方面均獲得了絕大多數(shù)用戶的偏好（例如在 Open-Oasis 上，96.4% 的用戶認(rèn)為 StableWorld 視頻質(zhì)量更好）。

定性結(jié)果 (Qualitative Results)

下圖8展示了三個(gè)模型在加入 StableWorld 前后的對(duì)比。

結(jié)果顯示：

原版模型（Vanilla）在長(zhǎng)序列生成中會(huì)出現(xiàn)嚴(yán)重的場(chǎng)景崩塌和漂移。

StableWorld 有效保持了場(chǎng)景的穩(wěn)定性，減少了隨時(shí)間推移的漂移，同時(shí)保持了運(yùn)動(dòng)的連續(xù)性。

更多定性比較在附錄 C 中提供，證明了該方法在長(zhǎng)序列（數(shù)千幀）和小/大運(yùn)動(dòng)場(chǎng)景下的魯棒性。

消融實(shí)驗(yàn)

窗口大小 (Window Sizes)：下圖9顯示，窗口過大（如 18 或 36）會(huì)引入舊場(chǎng)景的殘留偽影，干擾新場(chǎng)景生成；窗口適中（如 9）效果最佳。

相似度度量 (Similarity Metrics)：圖10 和圖11對(duì)比了 SSIM、余弦相似度和 ORB。

SSIM 對(duì)視角變化過于敏感，導(dǎo)致過早剔除清晰幀。

余弦相似度對(duì)空間變換不敏感，容易遺漏場(chǎng)景變化，導(dǎo)致舊幀殘留。

ORB 在兩者之間取得了最佳平衡。

ORB 相似度閾值：下圖12顯示，閾值設(shè)為 0.75 時(shí)效果最佳。過低會(huì)導(dǎo)致舊幀保留太久阻礙新場(chǎng)景生成，過高則導(dǎo)致清晰幀過早被剔除從而引入累積誤差。

結(jié)論

本文指出了當(dāng)前交互式視頻生成模型面臨的一個(gè)普遍問題：場(chǎng)景崩塌。通過深入分析發(fā)現(xiàn)這種崩塌源于同一場(chǎng)景內(nèi)相鄰幀之間發(fā)生的幀間漂移，這種漂移隨時(shí)間逐漸累積，最終導(dǎo)致與原始場(chǎng)景的巨大偏差。受此觀察啟發(fā)，本工作提出了一個(gè)簡(jiǎn)單而有效的方法——StableWorld，這是一種動(dòng)態(tài)幀剔除機(jī)制，能在保持運(yùn)動(dòng)一致性的同時(shí)顯著減少誤差累積。本工作在多個(gè)交互式視頻生成模型（包括 Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0）上評(píng)估了該方法。大量實(shí)驗(yàn)表明，本工作提出的方法大幅提高了長(zhǎng)時(shí)生成的視覺質(zhì)量，并顯示出與未來世界模型集成的巨大潛力。

參考文獻(xiàn)

[1] StableWorld: Towards Stable and Consistent Long Interactive Video Generatio

原文標(biāo)題 : 告別時(shí)空崩壞，生成式游戲迎來“穩(wěn)態(tài)”時(shí)刻！南大等StableWorld：打造無限續(xù)航虛擬世界