告別時(shí)空崩壞,生成式游戲迎來“穩(wěn)態(tài)”時(shí)刻!南大等StableWorld:打造無限續(xù)航虛擬世界
作者:Ying Yang等
解讀:AI生成未來
亮點(diǎn)直擊
識(shí)別了長(zhǎng)時(shí)交互式世界建模中不穩(wěn)定性的根本原因:同一場(chǎng)景內(nèi)的微小漂移會(huì)不斷累積,最終導(dǎo)致整體場(chǎng)景崩潰。
一種簡(jiǎn)單而有效的方法 StableWorld,通過一種動(dòng)態(tài)幀剔除機(jī)制(dynamic frame eviction),從源頭上有效防止誤差累積,同時(shí)保持運(yùn)動(dòng)的連續(xù)性。
在多種交互式世界模型上驗(yàn)證了該方法的有效性,包括 Matrix-Game 2.0、Open Oasis 以及 Hunyuan-GameCraft 1.0,并覆蓋了多種場(chǎng)景條件(靜態(tài)場(chǎng)景、小/大幅運(yùn)動(dòng)以及顯著視角變化)。大量實(shí)驗(yàn)結(jié)果表明,該方法在穩(wěn)定性、長(zhǎng)期一致性以及跨交互場(chǎng)景的泛化能力方面均取得了持續(xù)而顯著的提升。
圖 1.StableWorld:在自然景觀和游戲世界等不同環(huán)境中生成穩(wěn)定且視覺一致的交互式視頻,同時(shí)保持連續(xù)運(yùn)動(dòng)控制并防止長(zhǎng)期場(chǎng)景漂移
總結(jié)速覽
解決的問題
當(dāng)前交互式視頻生成模型(如世界模型)在生成長(zhǎng)時(shí)間序列時(shí),存在嚴(yán)重的穩(wěn)定性不足與時(shí)間不一致性問題,表現(xiàn)為空間漂移和場(chǎng)景崩塌。
即使在沒有交互或靜態(tài)場(chǎng)景下,模型也會(huì)因誤差累積導(dǎo)致生成幀逐漸偏離初始狀態(tài),破壞時(shí)間一致性。
提出的方案
提出 StableWorld 框架,其核心是 動(dòng)態(tài)幀淘汰機(jī)制。
在滑動(dòng)窗口生成過程中,動(dòng)態(tài)評(píng)估并保留幾何一致性的關(guān)鍵幀(尤其是早期較“干凈”的幀),淘汰退化或冗余的中間幀,從而從源頭抑制誤差累積。
應(yīng)用的技術(shù)
使用 ORB + RANSAC 算法計(jì)算視角重疊度,以評(píng)估幀間幾何一致性。
采用 KV-cache 窗口擴(kuò)展 分析作為技術(shù)依據(jù),驗(yàn)證引入更早、更干凈的參考幀能有效穩(wěn)定生成。
通過 幀間均方誤差(MSE) 量化漂移積累,用于現(xiàn)象分析與驗(yàn)證。
達(dá)到的效果
顯著提升穩(wěn)定性與時(shí)間一致性:有效緩解長(zhǎng)序列生成中的場(chǎng)景崩塌和空間漂移問題。
模型無關(guān)性:在多個(gè)交互式視頻生成框架(如 Matrix-Game, Open-Oasis, Hunyuan-GameCraft)上均驗(yàn)證有效,具備良好泛化能力。
保持適應(yīng)性:在抑制累積誤差的同時(shí),不影響模型對(duì)大幅運(yùn)動(dòng)和場(chǎng)景轉(zhuǎn)換的響應(yīng)能力。
方法
預(yù)備知識(shí)
視頻生成模型。視頻生成模型通常采用全序列生成方法,即在給定條件 下一次性從噪聲生成所有幀。形式上,生成過程可以定義為:
其中 表示第 幀在第 個(gè)去噪步的狀態(tài),, 為生成的總幀數(shù)。在每個(gè)時(shí)間步 ,所有幀共享相同的噪聲方差 ,遵循統(tǒng)一的噪聲調(diào)度。盡管這種方法能獲得高質(zhì)量的結(jié)果,但單次前向傳遞對(duì)整個(gè)序列建模會(huì)產(chǎn)生高昂的計(jì)算成本,并不適用于實(shí)時(shí)交互場(chǎng)景。
交互式視頻生成。與全序列模型不同,交互式視頻生成采用自回歸范式,每一幀 的生成都以部分歷史幀和當(dāng)前動(dòng)作 為條件。這種條件生成表示為 ,其中 表示保存在記憶緩沖區(qū)中的選定參考幀, 代表在第 步用戶發(fā)出或代理驅(qū)動(dòng)的動(dòng)作。這種范式允許模型根據(jù)用戶動(dòng)作按順序生成幀,從而實(shí)現(xiàn)實(shí)時(shí)交互和動(dòng)態(tài)場(chǎng)景控制。
大多數(shù)近期的方法進(jìn)一步結(jié)合了擴(kuò)散和自回歸范式:擴(kuò)散模型用于幀內(nèi)去噪,而自回歸用于捕捉幀間的時(shí)間依賴性。形式上,整體生成過程可以表示為:
其中 表示擴(kuò)散時(shí)間步 下的第 幀。在每個(gè)擴(kuò)散步 ,模型以先前生成的幀 和當(dāng)前動(dòng)作 為條件,將 去噪為 。該公式融合了每幀內(nèi)的空間去噪和跨幀的時(shí)間依賴性,實(shí)現(xiàn)了高質(zhì)量且實(shí)時(shí)的交互式視頻生成。
場(chǎng)景崩塌的原因
盡管交互式視頻生成模型可以產(chǎn)生連貫的短期序列,但在長(zhǎng)時(shí)間生成過程中,它們?nèi)詢A向于出現(xiàn)漸進(jìn)式的場(chǎng)景崩塌,特別是當(dāng)場(chǎng)景在很長(zhǎng)一段時(shí)間內(nèi)保持高度相似時(shí)(如下圖2 所示)。相比之下,當(dāng)場(chǎng)景頻繁切換、模型不斷遇到新的視覺條件時(shí),這種崩塌很少發(fā)生(如下圖6 所示)。這種對(duì)比表明,崩塌在很大程度上并非由動(dòng)作控制或運(yùn)動(dòng)復(fù)雜性引起,而是與視覺信息如何在同一場(chǎng)景隨時(shí)間推移的保存和傳播有關(guān)。


為了理解這一行為,本工作測(cè)量了幀間均方誤差(MSE)距離,以量化幀差異如何在單個(gè)靜態(tài)場(chǎng)景的序列推進(jìn)中變化,如下圖3所示。左側(cè)兩圖展示了在潛在空間中不同間隔(1, 5, 10, 20)下的幀間漂移。觀察發(fā)現(xiàn),雖然相鄰幀僅表現(xiàn)出微小的差異,但這些小漂移隨著序列的延長(zhǎng)逐漸累積。在較大間隔(如 10 或 20)上比較的幀顯示出顯著更大的漂移。由于這種偏差已存在于潛在空間中,像素空間也表現(xiàn)出類似的漂移模式(如右側(cè)兩圖所示),最終表現(xiàn)為視覺不一致和場(chǎng)景崩塌(上圖2)。這些觀察表明,同一場(chǎng)景內(nèi)的漂移隨時(shí)間累積并傳播,最終導(dǎo)致全局場(chǎng)景崩塌。

基于這一觀察,本工作假設(shè)使用累積漂移較小的幀作為參考,可以為后續(xù)幀的生成提供更可靠的基礎(chǔ)。為了驗(yàn)證這一假設(shè),本工作擴(kuò)大了 KV-cache 的窗口大小,允許模型訪問更清晰的幀,如下圖4所示。檢查了在不同歷史窗口大小下,每個(gè)目標(biāo)幀與第一幀之間的頻率幅度差異如何變化。在默認(rèn)設(shè)置下(窗口大小=9,圖 (a)),所有頻段都出現(xiàn)了巨大的波動(dòng)。隨著窗口大小增加到 36(圖 (b))和 90(圖 (c)),整體波動(dòng)減緩,表明誤差累積部分減少。然而,這種改進(jìn)是以更高的計(jì)算開銷和更慢的生成速度為代價(jià)的,這限制了其實(shí)用性。

進(jìn)一步的分析表明,從較大窗口觀察到的穩(wěn)定性主要源于在參考緩沖區(qū)中保留了若干清晰的早期幀。例如,在圖 (d) 中,在固定大小的窗口內(nèi)保留少量可靠的早期幀會(huì)導(dǎo)致顯著更穩(wěn)定的生成,后期幀相對(duì)于第一幀表現(xiàn)出極小的漂移。這一發(fā)現(xiàn)強(qiáng)調(diào)了早期清晰幀的質(zhì)量和保存對(duì)于緩解累積誤差起著至關(guān)重要的作用。然而,當(dāng)發(fā)生大幅度運(yùn)動(dòng)或劇烈的場(chǎng)景轉(zhuǎn)換時(shí),始終保留初始幀會(huì)變得具有局限性。如下圖7 所示,盡管兩種設(shè)置遵循相同的動(dòng)作指令,但嚴(yán)格保留早期幀的設(shè)置無法切換到新場(chǎng)景,這表明過度的保留阻礙了場(chǎng)景轉(zhuǎn)換。為了同時(shí)緩解累積漂移并保持生成新場(chǎng)景的靈活性,引入了 StableWorld,這是一個(gè)基于動(dòng)態(tài)幀剔除機(jī)制(見下圖5)的簡(jiǎn)單而有效的框架。


基于 ORB 幾何相似度的動(dòng)態(tài)幀剔除
為了確定是否發(fā)生場(chǎng)景轉(zhuǎn)換,本工作采用 ORB 特征匹配結(jié)合基于 RANSAC 的幾何驗(yàn)證來測(cè)量幀間相似度。當(dāng)推理階段沒有顯式的相機(jī)外參時(shí),ORB 提供了一種替代方案,可以生成快速且旋轉(zhuǎn)不變的局部特征,使其非常適合檢測(cè)小幅相機(jī)運(yùn)動(dòng)下的幾何一致性。通過將這種相似度估計(jì)與動(dòng)態(tài)幀剔除策略相結(jié)合,本工作持續(xù)過濾掉退化的幀,同時(shí)保留幾何一致的幀,從而有效地防止跨動(dòng)態(tài)場(chǎng)景的誤差累積。
當(dāng)窗口需要滑動(dòng)時(shí),必須剔除一些幀。為簡(jiǎn)單起見,假設(shè)每一幀對(duì)應(yīng)一個(gè) token,并且每次迭代生成一個(gè) token。設(shè) 表示窗口內(nèi)的潛在空間 token, 表示它們對(duì)應(yīng)的像素空間幀,其中 是窗口大小。窗口中較早的幀定義為 ,其中 。這里, 被視為參考幀,而 被稱為中間幀。在每個(gè)更新步驟中,生成一個(gè)新幀,并相應(yīng)地剔除一個(gè)舊幀。
本工作使用以下策略確定應(yīng)剔除哪一幀。首先,通過從參考幀 和中間幀 中提取 ORB 特征來測(cè)量幾何相似度。設(shè) 和 分別表示從 和 提取的 ORB 描述符集,其中 和 是每幀中檢測(cè)到的特征數(shù)量。候選對(duì)應(yīng)關(guān)系 通過描述符空間中的最近鄰匹配獲得,隨后進(jìn)行 Lowe 比率測(cè)試:
其中 是用于過濾模糊匹配的比率測(cè)試閾值, 表示幸存的對(duì)應(yīng)關(guān)系數(shù)量。
然后使用 RANSAC 結(jié)合單應(yīng)性矩陣 (H) 和基礎(chǔ)矩陣 (F) 模型來驗(yàn)證 中的匹配,以強(qiáng)制執(zhí)行幾何一致性:
其中 和 分別表示在估計(jì)的單應(yīng)性矩陣 和基礎(chǔ)矩陣 下評(píng)估的 Sampson 幾何誤差, 和 表示相應(yīng)的內(nèi)點(diǎn)對(duì)應(yīng)集。 是用于內(nèi)點(diǎn)確定的預(yù)定義容差,誤差越小表示幾何對(duì)齊越好。本工作計(jì)算內(nèi)點(diǎn)比率:
其中 和 表示兩種模型下的內(nèi)點(diǎn)對(duì)應(yīng)數(shù)量。最終相似度分?jǐn)?shù)定義為:
如果相似度分?jǐn)?shù) 超過預(yù)定義閾值 ,則繼續(xù)對(duì)更遠(yuǎn)的幀 進(jìn)行檢查。一旦幾何相似度低于 ,過程停止。最后,如果所有中間幀都滿足閾值,則剔除最遠(yuǎn)的幀 。否則,剔除第一次失敗之前的幀(例如 )。詳細(xì)過程和實(shí)現(xiàn)設(shè)置在附錄 A 中提供。
實(shí)驗(yàn)
全面的實(shí)驗(yàn)驗(yàn)證了 StableWorld 在不同模型和場(chǎng)景下的有效性。
評(píng)估指標(biāo)與設(shè)置
本工作在三個(gè)主要模型上進(jìn)行了驗(yàn)證:Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0。
數(shù)據(jù)集:涵蓋了自然場(chǎng)景、游戲場(chǎng)景以及包含小幅運(yùn)動(dòng)和大幅運(yùn)動(dòng)的多樣化視頻序列。
指標(biāo):
VBench-Long:用于評(píng)估視頻質(zhì)量、美學(xué)質(zhì)量、動(dòng)態(tài)程度和時(shí)間一致性等多維度指標(biāo)。
用戶研究 (User Study):邀請(qǐng) 20 位參與者對(duì)視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)平滑度進(jìn)行投票。
實(shí)現(xiàn)細(xì)節(jié):對(duì)于不同的模型,設(shè)置了相應(yīng)的 KV-cache 窗口大小和關(guān)鍵幀比較策略。ORB 相似度閾值統(tǒng)一設(shè)置為 0.75。
定量結(jié)果 (Quantitative Results)
VBench-Long 評(píng)分:如下表1所示,StableWorld 在所有三個(gè)模型上均顯著提升了圖像質(zhì)量和美學(xué)質(zhì)量。
在 Matrix-Game 2.0 上,美學(xué)質(zhì)量提升了 14.61%。
在 Open-Oasis 上,圖像質(zhì)量提升了 7.38%。
在 Hunyuan-GameCraft 1.0 上,美學(xué)質(zhì)量提升了 9.06%。
雖然時(shí)間質(zhì)量和物理理解指標(biāo)變化不大(因?yàn)樵婺P偷谋浪鶎?dǎo)致靜態(tài)畫面,從而誤導(dǎo)了這些指標(biāo)),但 StableWorld 在大多數(shù)指標(biāo)上仍有一致提升,且計(jì)算延遲僅增加 1.00–1.02倍。
用戶研究:如下表2所示,StableWorld 在視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)平滑度方面均獲得了絕大多數(shù)用戶的偏好(例如在 Open-Oasis 上,96.4% 的用戶認(rèn)為 StableWorld 視頻質(zhì)量更好)。
定性結(jié)果 (Qualitative Results)
下圖8展示了三個(gè)模型在加入 StableWorld 前后的對(duì)比。

結(jié)果顯示:
原版模型(Vanilla)在長(zhǎng)序列生成中會(huì)出現(xiàn)嚴(yán)重的場(chǎng)景崩塌和漂移。
StableWorld 有效保持了場(chǎng)景的穩(wěn)定性,減少了隨時(shí)間推移的漂移,同時(shí)保持了運(yùn)動(dòng)的連續(xù)性。
更多定性比較在附錄 C 中提供,證明了該方法在長(zhǎng)序列(數(shù)千幀)和小/大運(yùn)動(dòng)場(chǎng)景下的魯棒性。
消融實(shí)驗(yàn)
窗口大小 (Window Sizes):下圖9顯示,窗口過大(如 18 或 36)會(huì)引入舊場(chǎng)景的殘留偽影,干擾新場(chǎng)景生成;窗口適中(如 9)效果最佳。
相似度度量 (Similarity Metrics):圖10 和 圖11對(duì)比了 SSIM、余弦相似度和 ORB。
SSIM 對(duì)視角變化過于敏感,導(dǎo)致過早剔除清晰幀。
余弦相似度對(duì)空間變換不敏感,容易遺漏場(chǎng)景變化,導(dǎo)致舊幀殘留。
ORB 在兩者之間取得了最佳平衡。
ORB 相似度閾值:下圖12顯示,閾值設(shè)為 0.75 時(shí)效果最佳。過低會(huì)導(dǎo)致舊幀保留太久阻礙新場(chǎng)景生成,過高則導(dǎo)致清晰幀過早被剔除從而引入累積誤差。


結(jié)論
本文指出了當(dāng)前交互式視頻生成模型面臨的一個(gè)普遍問題:場(chǎng)景崩塌。通過深入分析發(fā)現(xiàn)這種崩塌源于同一場(chǎng)景內(nèi)相鄰幀之間發(fā)生的幀間漂移,這種漂移隨時(shí)間逐漸累積,最終導(dǎo)致與原始場(chǎng)景的巨大偏差。受此觀察啟發(fā),本工作提出了一個(gè)簡(jiǎn)單而有效的方法——StableWorld,這是一種動(dòng)態(tài)幀剔除機(jī)制,能在保持運(yùn)動(dòng)一致性的同時(shí)顯著減少誤差累積。本工作在多個(gè)交互式視頻生成模型(包括 Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0)上評(píng)估了該方法。大量實(shí)驗(yàn)表明,本工作提出的方法大幅提高了長(zhǎng)時(shí)生成的視覺質(zhì)量,并顯示出與未來世界模型集成的巨大潛力。
參考文獻(xiàn)
[1] StableWorld: Towards Stable and Consistent Long Interactive Video Generatio
原文標(biāo)題 : 告別時(shí)空崩壞,生成式游戲迎來“穩(wěn)態(tài)”時(shí)刻!南大等StableWorld:打造無限續(xù)航虛擬世界
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





