真“六邊形戰士”！Capybara把圖像視頻全打通：一個模型搞定T2I、T2V、I2V！

2026-03-16 16:20

作者：Capybara 團隊

解讀：AI生成未來

亮點直擊

統一的視覺創作模型 Capybara：針對當前視覺內容創作領域高度碎片化（單一模態、功能割裂、接口不兼容）的問題，本文提出了Capybara，一個統一的視覺創作基礎模型。該模型能夠在單一框架下同時支持圖像/視頻的生成與編輯任務。

實現了真正的多模態統一接口： Capybara的核心創新在于其共享的多模態條件接口。單個模型能夠接收包含文本、圖像、視頻在內的多種模態上下文輸入，并通過改變輸入的上下文和指令來實現多樣化的創作行為，無需切換架構或訓練多個專用模型。

整合并統一了四大類核心創作任務：本文將分散的創作功能統一到一個框架下，包括：

1. 文本到圖像/視頻生成。

2. 上下文生成：基于草圖、主體參考、起始幀等視覺條件進行生成。

3. 基于指令的編輯：通過文本指令編輯圖像/視頻，并首次將密集預測任務視為其特例。

4. 上下文編輯：由額外的視覺參考、風格示例或多模態上下文驅動的編輯，如關鍵幀傳播。

重構了視覺創作的范式：本文將視覺創作重新定義為在統一主干網絡下對文本條件和多模態示例的組合。這種設計不僅支持靜態和動態內容創作，還能靈活地組合文本意圖與視覺上下文。

展示了強大的可擴展性與應用潛力：該框架能夠自然擴展到長視頻編輯，在高吞吐量支持下可進一步實現流式視頻編輯。其統一的接口還支持組合式的多模態工作流程，例如在一個請求中混合使用圖像和視頻作為參考，以同時捕捉身份、運動和結構信息，實現更靈活的創作。

總結速覽

解決的問題

當前視覺內容創作領域存在高度碎片化的問題：現有工作多聚焦于單一模態（如圖像或視頻）或僅實現部分創作功能（如僅生成或僅編輯）。這導致解決方案彼此割裂、接口互不兼容，且上下文條件（如草圖、參考幀）往往作為任務特定的附加模塊引入，難以構建一個支持多樣化多模態輸入、具備統一創作流程的單一系統。

提出的方案

提出Capybara，一個統一的視覺創作基礎模型。該模型通過共享的多模態條件接口，將分散的生成與編輯任務整合到單一框架中。其核心設計是：單個模型接收包含文本、圖像和視頻的多模態上下文輸入，并通過改變所提供的上下文和指令來表達多樣化的創作任務，無需切換架構或訓練獨立的專用模型。

應用的技術

統一的條件接口：將視覺創作統一到單一的條件包中，包含（1）文本輸入、（2）主要視覺上下文（圖像/視頻/起始幀）、（3）可選輔助條件（風格示例/草圖/深度圖等）。

多模態上下文學習：支持在統一主干網絡下，對文本條件和多模態示例進行組合。

四大任務框架：通過同一接口支持（1）文本到圖像/視頻生成、（2）基于視覺上下文的生成（如草圖/參考幀）、（3）基于指令的編輯（文本引導的編輯，含密集預測）、（4）上下文編輯（視覺參考驅動的編輯，如關鍵幀傳播）。

達到的效果

功能統一：成功將生成與編輯、圖像與視頻任務統一于單一模型，實現了跨模態的一致性變換。

靈活創作：能夠靈活組合文本意圖與視覺上下文，支持靜態（圖像）和動態（視頻）內容的創作。

強擴展性：框架自然擴展到長視頻編輯，高吞吐量下可支持流式視頻編輯；同時支持組合式多模態工作流（如在單次請求中混合圖像/視頻作為參考），為靈活的多任務創作提供了基礎。

數據

為支持統一的視覺創作，構建了一個聯合的圖像-視頻語料庫，為文本到圖像/視頻生成、上下文生成、基于指令的編輯以及上下文編輯提供訓練信號。因此，我們的數據既包含用于從零開始的合成的標準文本-圖像/視頻對，也包含包含文本與視覺輸入的上下文豐富的元組：用于基于參考主體的圖像/視頻生成的主體參考、用于基于條件控制的圖像/視頻生成（例如，草圖、布局、姿態、深度/邊緣圖）的視覺提示或結構化控制、用于圖像生成視頻的以起始幀為條件的剪輯、用于基于指令編輯的成對源-指令-目標示例，以及用于上下文編輯的參考驅動的編輯元組（源加上一個或多個視覺范例）。對于傳播任務，從 TV2V 數據集中隨機采樣數據作為我們的訓練數據。

采用系統性的多階段處理工作流程，將異構的原始數據集合轉化為高質量的訓訓練數據。該流程包括：（1）質量過濾：使用自動化分類器移除有缺陷的內容（模糊、偽影、有害材料）和額外疊加元素（水印、字幕）；（2）語義去重：通過基于嵌入的聚類保留多樣化、非冗余的樣本；（3）分布再平衡：確保在主體類別、場景類型和視覺屬性上有足夠的代表性；（4）密集重述：使用在高質量標注上訓練的雙語（中文/英文）視覺語言模型，生成對動態元素（運動、攝像機運動）和靜態特征（外觀、美學、風格）的詳細描述。特別是針對編輯任務，我們開發了大規模合成流程，以生成配對數據（源圖像/視頻、編輯結果、指令）。

模型設計與訓練

統一架構：將理解與生成解耦

為了構建一個統一的視覺創作模型，核心挑戰在于接收各種上下文輸入：文本、圖像和視頻，并將它們融合到一個能夠驅動生成和編輯的單一條件空間中。因此，我們選擇了一種雙流解耦架構，將多模態理解與基于擴散的合成分離開來：一個語義感知模塊專注于處理用戶輸入和對多模態上下文進行推理，而一個視覺融合模塊則將對齊后的語義和視覺特征整合到去噪主干網絡中，以進行高保真度合成。通過將理解與生成在結構上解耦，避免強制一組模塊同時執行高層級解釋和低層級去噪，從而使單個模型能夠通過簡單地改變提供的上下文和指令來支持多樣化的創作任務。

語義模塊 提出的語義模塊將各種條件（例如，文本、圖像和視頻）整合到一個統一的潛在表示中。該模塊執行上下文推理以提取特定于意圖的特征，同時在結構上與去噪網絡保持隔離。這種設計提供了一個強大的語義先驗，指導生成過程嚴格遵循用戶的創作意圖。

視覺模塊 視覺模塊負責擴散去噪過程以及精細像素級條件的精確整合。作為對來自語義模塊的高層級指導的補充，視覺模塊整合了細粒度的視覺條件。這種架構將生成能力導向忠實的重建和時空一致性，確保在統一框架內嚴格遵守多模態約束。

擴散變換器主干網絡 本模型從預訓練的 Hunyuan-Video 1.5 初始化，繼承了其變分自編碼器、擴散變換器架構和時空建模能力。在此基礎之上，我們引入了一種雙流解耦建模設計：語義模塊將所有條件輸入處理成統一的表示，而視覺模塊則專注于處理低層級特征。這種架構修改使得靈活的多條件建模成為可能，同時保留了預訓練帶來的強大生成先驗。

訓練策略

為了建立一個統一的視覺生成框架，采用了一種漸進的三階段訓練方案。該策略旨在系統地應對與統一各種任務和條件信號相關的獨特挑戰。訓練軌跡使模型從穩健的重建發展到廣泛的多任務泛化，最終實現高保真度的指令對齊。

第一階段：重建與上下文生成訓練。 從強大的生成先驗（從 HunyuanVideo-1.5 初始化）開始。目標是確保語義模塊產生的條件信號能夠被視覺模塊可靠地使用而不會導致性能下降，這對于未編輯區域必須保持一致的編輯任務尤其關鍵。此外，我們還訓練了標準和上下文生成任務（基于參考主體的圖像/視頻生成、基于條件控制的圖像/視頻生成、圖像生成視頻）的混合，以引入像素級條件能力。

第二階段：編輯任務訓練。 在第一階段為生成任務建立了穩定的多模態條件接口之后，我們將訓練擴展到在相同統一框架下的編輯任務。具體來說，我們引入了基于指令的編輯（文本引導的圖像/視頻編輯），包括作為特例的密集預測，其中指令要求生成與輸入內容對齊的結構化輸出。我們進一步擴展到由額外視覺參考、風格/主體示例以及結構化或區域特定引導驅動的上下文編輯（基于參考的圖像/視頻編輯、跨視頻編輯），并包含了傳播序列，其中稀疏的已編輯關鍵幀監督著跨更長視頻的時間一致性變化傳遞。

第三階段：質量微調。 最后，執行質量微調以改善在生成和編輯任務中的指令遵循度、視覺保真度和時間穩定性。此階段側重于困難案例，如細粒度的編輯局部性、身份/外觀保持、復雜的多模態約束以及長程時間一致性。我們收集更高質量和更難處理的示例，并應用有針對性的微調以減少偽影并加強輸入與輸出之間的對齊。

智能體輔助的視覺創作

對于迭代式視頻編輯，采用了一種包含智能體在環的閉環流程：規劃 → 編輯 → 評估/診斷 → 優化。智能體將高層級意圖轉化為編輯計劃，定義要更改的內容（內容/風格/運動）和要保留的內容，并附帶關于身份、局部性和時間范圍的約束。然后，它調用視頻編輯器（例如，文本到視頻/視頻到視頻，可選擇使用遮罩/框、參考或按片段調度）來生成候選剪輯片段。

一個評估模塊使用一小組指標對結果進行評分——目標對齊度、主體一致性、時間穩定性和約束滿足度——并輸出結構化反饋，指出不正確的更改以及出現偽影的位置。智能體將此反饋轉化為更精確的指令和更新的控制項（提示詞修改、強度調度、時間窗口、區域約束、錨點），并進行幾輪迭代，直到指標穩定或達到閾值。這是通過顯式診斷進行的迭代式引導，而不是一次性提示。

結論

Capybara，一個統一的視覺創作基礎模型，它有效地彌合了靜態與動態內容生成之間的鴻溝。通過統一從文本到圖像到復雜視頻編輯的多種范式，Capybara在精確的指令遵循、結構穩定性和逼真的視覺質量方面表現出色。展示了在原生統一架構、內在的3D感知機制以及全面的多任務訓練策略方面的核心技術革新，這些技術被有效地整合在一起，構建了一個穩健且通用的系統。它在處理復雜多條件場景、維持符合物理規律的時間連貫性，以及為全視覺創作實現無縫的專業級工作流程方面，展現出了卓越的能力。

參考文獻

[1]CAPYBARA: A Unified Visual Creation Model

原文標題 : 真“六邊形戰士”！Capybara把圖像視頻全打通：一個模型搞定T2I、T2V、I2V！