“
逐幀視頻生成與語言模型中的思維鏈相似。正如思維鏈(CoT)使語言模型能夠用符號進行推理一樣,“幀鏈”(CoF)使視頻模型能夠跨越時間和空間進行推理。
DeepMind 最新發表的 Veo 3 論文首次提出了 Chain of Frames(CoF)的概念。
Veo 3 新興的零樣本能力表明,視頻模型正在走向統一的通用視覺基礎模型。
大型語言模型 (LLM) 的零樣本能力推動了自然語言處理從特定任務模型向統一的通用基礎模型的演進。
這種轉變源于簡單的基元:在網絡規模數據上訓練的大型生成模型。
有趣的是,同樣的基元也適用于當今的生成視頻模型。Google DeepMind 團隊證明 Veo 3 可以解決各種未經明確訓練的任務:分割物體、檢測邊緣、編輯圖像、理解物理屬性、識別物體可供性、模擬工具使用等等。這些感知、建模和操縱視覺世界的能力,使早期的視覺推理形式(如迷宮和對稱性求解)成為可能。
研究方法
視頻模型是否能夠開發通用的視覺理解,就像 LLM 開發通用的語言理解一樣?
DeepMind 的回答是肯定。
他們采用了一種很簡單的方法:使用初始輸入圖像和文本指令來提示 Veo 3。
在自然語言處理 (NLP) 領域,提示取代了針對特定任務的訓練或適應。在視頻模型的推動下,機器視覺領域也即將出現類似的范式轉變。
團隊首先對視覺任務進行定性研究,以評估視頻模型作為視覺基礎模型的潛力。研究結果分為四個層次,每個層次都建立在最后一個層次之上。
四個層次分別為:感知、建模、操作、推理。這種層次結構提供了一個框架,用于理解視頻模型的新興能力。
結果顯示,Veo 3 展現出了超越訓練任務的新興零樣本感知能力,很可能會取代計算機視覺領域中的大多數定制模型。
感知、操作、推理
DeepMind 團隊針對不同任務對 Veo 進行定量評估。包括感知(評估 Veo 的邊緣檢測、分割和目標提取)、操作(圖像編輯性能)、迷宮求解、視覺對稱性和視覺類比。
據觀察數據顯示,Veo 2 到 Veo 3 的性能大幅提升,可以匹敵甚至超過 Nano Banana 的性能。
感知
盡管沒有經過專門訓練,Veo 3 也可以被提示檢測并感知邊緣,邊緣圖比真實值更詳細。
操作
通過實驗,團隊發現 Veo 3 在編輯過程中尤其擅長保留細節和紋理。如果能夠更好地控制攝像機移動或人物動畫等因素,視頻模型就可以成為功能強大的 3D 感知圖像和視頻編輯器。
推理
Veo 3 展示了零次迷宮求解能力,優于 Veo 2的求解能力。在 5×5 網格中,Veo 3 的通過率為 78%,而 Veo 2 僅為 14%。
在視覺對稱性求解的測試中,Veo 3 的表現遠超 Veo 2 和 Nano Banana。
在視覺類比測試中,Veo 3 正確地完成了顏色和調整大小的示例,展示了理解物體之間變化和關系的能力。
結語
機器視覺正處于類似的范式轉變的邊緣,這得益于大規模視頻模型的新興能力。
Veo 3 可以用零樣本的方式解決各種任務,涵蓋從感知到建模、操作甚至早期形式的視覺推理。雖然它的性能還不完美,但從 Veo 2 到 Veo 3 的巨大而持續的改進表明,視頻模型將成為視覺的通用基礎模型,就像 LLM 之于語言一樣。
參考資料:https://arxiv.org/pdf/2509.20328