強勢斬獲6項SOTA！UniCorn打通理解與生成任督二脈，靠“內省”重構多模態認知

2026-01-09 16:15

作者：Ruiyan Han等

解讀：AI生成未來

亮點直擊

傳導性失語癥：將統一多模態模型中“理解能力強但生成能力弱”的現象形式化為“傳導性失語癥”。

UniCorn 框架：一種無需外部數據或教師監督的自我提升框架。該框架將單個模型劃分為提議者（Proposer）、求解者（Solver）和裁判（Judge）三個角色，通過自我博弈實現能力提升。全面的 SOTA 性能，UniCorn 始終優于先前同類方法。在 TIIF (73.8)、DPG (86.8)、CompBench (88.5) 和 UniCycle (46.5) 上均取得了 SOTA。

UniCycle 基準：引入了基于 文本圖像文本 循環一致性的新基準，用于驗證多模態一致性的恢復情況。

解決的問題

理解與生成的不匹配：現有的統一多模態模型（UMMs）在跨模態理解方面表現出色，但難以利用這種內部知識進行高質量的生成（即“傳導性失語癥”）。

對外部監督的依賴：傳統的提升方法往往依賴于昂貴的外部標注數據或強大的教師模型進行蒸餾，限制了模型的可擴展性和自主進化能力。

提出的方案

自我多智能體采樣（Self Multi-Agent Sampling）：利用 UMM 的上下文學習能力，讓模型分飾三角：

Proposer：生成具有挑戰性的提示（Prompts）。

Solver：根據提示生成圖像。

Judge：評估生成質量并提供反饋。

認知模式重構：將自我博弈中的交互軌跡轉化為訓練數據：

Caption：將生成的圖像映射回文本，穩固語義接地。

Judgement：學習預測評分，校準內部價值體系。

Reflection：學習從“失敗”樣本到“成功”樣本的轉換，內化自我修正機制。

應用的技術

多角色自我博弈（Multi-role Self-play）：在同一參數空間內實現不同角色的協作。

拒絕采樣（Rejection Sampling）：利用內部 Judge 的評分篩選高質量數據。

思維鏈（Chain-of-Thought）與反思（Reflexion）：在生成和評估過程中引入推理步驟，并通過對比正負樣本構建反思軌跡。

循環一致性評估：通過 T2I2T（文本-圖像-文本）循環來量化信息保持度。

達到的效果

SOTA 性能：UniCorn 在 TIIF (73.8)、DPG (86.8)、CompBench (88.5) 和 UniCycle (46.5) 等六個通用圖像生成基準上取得了最先進（SOTA）的性能。

顯著提升：相比基礎模型，在 WISE 上提升了 +5.0，在 OneIG 上提升了 +6.5。

數據高效性：僅需 5k 自生成數據即可超越使用 30k GPT-4o 蒸餾數據訓練的模型（IRG），證明了全自監督改進的可擴展性。

圖 2：UniCorn 可視化結果方法

先分析 UMM 中生成與理解能力的不匹配來闡述動機。基于這些觀察，提出了 UniCorn，這是一個簡單而優雅的后訓練框架，無需任何外部標注數據或教師模型即可實現自我提升。

動機

這就好比一個將“蘋果”這個詞與水果聯系起來的孩子，看到蘋果時能自發地說出它的名字一樣，認知對稱性使得內部概念與外部表達之間能夠雙向映射。這種對齊類似于逃離柏拉圖的洞穴：真正的智能必須超越對表面數據的觀察，掌握表象與其潛在源頭之間的互惠關系。

圖 1：UniCorn 的動機。 UMM 經常表現出理解代溝：它們可以準確地理解和批評圖像中的錯誤，但無法正確生成相同的場景。這種傳導性失語促使我們的框架利用模型卓越的內部理解，通過獨立的反饋來加強和完善其生成能力

然而，當前的 UMM 遭受著類似于傳導性失語癥（Conduction Aphasia） 的功能缺陷：雖然模型表現出深刻的理解能力，但其生成表現仍然是分裂的，無法生成它本質上能夠理解的內容。彌合這一差距至關重要；如果不協調這兩個過程，模型仍然是一個“被動的觀察者”，能夠將被動符號接地（grounding）但無法利用它們。因此，掌握理解與生成之間的協同作用不僅是功能升級，也是實現 AGI 所需的認知完整性的關鍵步驟。

一方面，如圖 3 所示，當前的 UMM 表現出強大的感知和理解能力。具體而言，當作為文本到圖像（T2I）生成的獎勵模型時，UMM 展現出對跨模態語義的復雜掌握。這表明模型已經內化了一個強大的“世界模型”，并擁有辨別高質量視覺-文本對齊所需的潛在知識。

圖 3：BAGEL和 GPT-4o在四個理解基準上的結果。對于 Omini-RewardBench和 MMRB2，評估了 T2I 任務。使用 GPT4結果對性能進行標準化，以獲得更好的可視化效果圖 3：BAGEL和 GPT-4o在四個理解基準上的結果。對于 Omini-RewardBench和 MMRB2，評估了 T2I 任務。使用 GPT4結果對性能進行標準化，以獲得更好的可視化效果

另一方面，模型的生成能力仍然受到顯著限制，主要是因為它未能彌合內部識別與主動合成之間的差距。這種功能性分離意味著 UMM 自身復雜的理解能力在生成過程中仍然是一個“沉默的乘客”，無法告知或糾正其輸出。基于這一觀察，本文的關鍵見解是：UMM 強大的理解能力可以被重新利用為一種自主監督信號，以指導其生成行為。通過將潛在的解釋深度轉化為顯式指導，本文促進了這兩個過程之間更緊密的耦合，最終恢復了真正集成的多模態智能所必需的認知對稱性。

問題定義

本文研究處理交錯圖像-文本輸入和輸出的 UMM。UMM 被公式化為一個策略，它將多模態輸入序列映射到交錯的多模態輸出序列。這種統一的輸入-輸出公式支持圖像到文本（I2T）理解和文本到圖像（T2I）生成。本文將理解操作化為 I2T，將生成操作化為 T2I，并利用模型較強的 I2T 理解能力來監督和改進其較弱的 T2I 生成能力。

UniCorn

圖 4：UniCorn 框架概述。 (a) 說明了高質量數據采樣的自我多主體協作。 (b) 詳細介紹了認知模式重建過程，該過程重新組織數據以促進穩健和高效的學習。 (c) 提出 UniCycle 基準評估，驗證模型是否能夠從其自身生成的內容中準確地重建關鍵文本信息。

UniCorn 通過兩個核心階段運作：自我多智能體采樣（Self Multi-Agent Sampling）和認知模式重構（Cognitive Pattern Reconstruction, CPR）。首先，UMM 同時擔任三個角色：提議者（Proposer）、求解者（Solver）和裁判（Judge），以模擬協作循環。然后，CPR 階段將這些原始交互重構為三種訓練模式：描述（caption）、判斷（judgement）和反思（reflection），這些模式與高質量的自我采樣 T2I 生成數據相結合用于后訓練。關鍵是，整個過程是完全獨立的，不需要外部教師模型或人工標注數據。

第一階段：自我多智能體采樣 (Stage 1: Self Multi-Agent Sampling)

LLM 天然適合多任務設置中的自我博弈。對于 UMM，交錯的多模態輸入和功能多樣性使得提示（prompting）、生成和判斷可以在共享模型中共存，從而在不同提示下實現條件化的角色行為。本文利用這一屬性將單個 UMM 功能化為協作角色，通過內部協同彌合理解與生成之間的差距。

提議者 (Proposer) ：提議者旨在為統一多模態模型生成一組多樣化且具有挑戰性的提示，隨后用于生成訓練圖像。為此，受 LAION-5B 和 COYO-700M 的啟發，本文將所有 T2I 任務提示分為十個類別，并為每個類別設計了細粒度的生成規則。接下來，本文提示 UMM 生成初始批次的提示，并充當裁判以選擇最佳候選者用于后續迭代。利用 LLM 強大的上下文學習（ICL）能力，初始示例作為少樣本演示（few-shot demonstration）來指導后續提示的生成。為了進一步增強多樣性，本文引入了一種動態種子機制。在生成預定數量的提示后，從提示庫中采樣幾個示例進行評估，然后用于構建新的演示以指導下一輪提示生成。與之前直接依賴訓練集或使用外部模型構建提示的方法相比，本文的方法不需要外部數據，并且生成更多樣化的提示，從而提高了泛化能力。

求解者 (Solver) ：求解者負責根據提議者提出的提示生成多樣化的輸出。因此，本文鼓勵 UMM 在隨機種子和不同超參數下生成圖像。遵循 DeepSeek-R1 的做法，本文對每個提示執行 8 次推演（rollouts），以在樣本質量、多樣性和計算效率之間取得有利的權衡。

裁判 (Judge) ：裁判負責對求解者根據提議者的提示生成的圖像進行打分，這些分數隨后用于訓練期間的拒絕采樣。

以前的工作依賴于基于關鍵詞的啟發式獎勵函數或強大的外部模型來提供密集的獎勵圖。這種獎勵裁判在很大程度上取決于參數調整和外部模型的性能，而外部模型的性能因任務而異，嚴重限制了自我提升的泛化能力。如圖 3 所示，UMM 表現出強大的獎勵建模能力。因此，本文遵循廣泛采用的“LLM 作為裁判”范式，使用 0 到 10 的離散分數制定所有 T2I 任務的獎勵評估。為了進一步提高判斷質量，本文將生成獎勵模型（Generation Reward Models）——其在 LLM 中已顯示出巨大潛力——遷移到 T2I 評估中。具體而言，本文為每個類別設計了特定于任務的評分標準，并鼓勵模型在生成最終分數之前明確闡述其推理過程。

第二階段：認知模式重構 (Stage 2: Cognitive Pattern Reconstruction)

通過使用提議者-求解者-裁判流程的自我多智能體拒絕采樣，本文獲得了一批高質量的提示-圖像對。雖然這些配對反映了從抽象概念空間到高維視覺流形的映射，但直接優化這種跨域對齊仍然是隨機且低效的，通常導致模式崩潰。為了超越這種“黑盒”優化，本文從元認知理論中汲取靈感，該理論將監控、評估和調節確定為穩健學習的支柱。基于這一見解，本文提出了一種三方數據架構，回收并結構化自我博弈循環中被忽視的軌跡。通過將這些潛在交互回放為顯式的描述（Caption）、判斷（Judgement）和反思（Reflection）模式，本文分別將抽象概念接地于視覺特征，提供評估信號，并編碼自我糾正過程。這種設計將之前丟棄的內部“內心獨白”轉化為結構化的監督信號，在沒有外部干預的情況下促進認知對稱性。

描述 (CAPTION) ：為了建立穩健的語義接地，此模式通過優化逆映射確保模型內化其自身創作的概念本質。通過將得分最高的圖像作為輸入，并將其原始提示作為基本真值（ground truth），模型學會將抽象概念錨定在其能夠合成的特定視覺流形內，從而加強內部概念與外部表現之間的雙向認知對稱性。

判斷 (JUDGEMENT) ：此模式側重于評估校準，以完善模型的內部價值體系。本文訓練模型預測任何生成對的評估信號，公式化為。通過利用裁判提供的特定任務評分標準和推理軌跡，模型對當前輸出與理想目標之間的潛在差距產生了敏銳的感知，為穩定生成過程提供了關鍵的診斷信號。

反思 (REFLECTION) ：受 Reflexion 啟發，此模式引入迭代調節以增強模型的自我進化能力。利用求解者的多次推演，本文利用裁判分配的獎勵來識別質量對比鮮明的配對，特別是從同一提示中選擇高獎勵的“獲勝”圖像和低獎勵的“失敗”圖像。然后，本文構建反思軌跡，公式化為，顯式編碼從次優狀態到更優狀態的轉換。通過學習將低質量的表現轉化為優化后的對應物，模型內化了一種自我糾正生成錯誤的機制，在不需要外部監督的情況下有效地緩解了模式崩潰。

這三種數據類型與高質量的自我采樣 T2I 生成數據相結合，用于微調 UMM。請注意，整個重構過程是基于規則的，不會引入任何復雜性。

UniCycle

為了評估內部協作是否產生真正的多模態智能而不僅僅是特定任務的性能提升，本文引入了 UniCycle，這是一個循環一致性基準，用于測量在 文本圖像文本 循環下的信息保存情況。給定一條指令，UniCycle 評估統一多模態模型是否可以通過隨后的視覺理解從其自身生成的圖像中恢復指令的關鍵語義。

基于 TIIF，本文生成 QA 對以探索基于生成圖像的指令隱含屬性，將原始 TIIF 基準從 T2I 設置擴展到文本到圖像到文本（T2I2T）設置。標注后，本文獲得了 1,401 個 TIIF 風格的實例，涵蓋十多個任務類別，并跨越多種問題格式，包括多項選擇題、二元（是/否）問題和開放式問題。

為了進行評估，給定提示，模型首先生成圖像，然后以生成的圖像為條件獨立回答每個問題。外部裁判模型評估每個預測答案是否與初始提示和參考答案一致，并為每個問題產生一個分數。

本文定義了一個統一的指標來量化這種 T2I2T 一致性。令表示與提示相關的問題集。本文定義：

其中表示問題的裁判分數，對于非文本問題定義為二元指標，對于文本類型問題定義為正確恢復關鍵詞的比例，以實現更細粒度和連續的度量。

最終的 Soft 和 Hard 分數是通過對所有提示取平均值獲得的。

實驗

實驗設置：

基礎模型：主要使用 BAGEL 模型進行實驗，同時也在 Janus-Pro 上驗證了方法的通用性。

基準測試：涵蓋 TIIF, WISE, OneIG-EN, CompBench, DPG, Geneval 等六個圖像生成基準，以及 MME, MMB 等理解基準。

對比模型：包括 SD3 Medium, FLUX.1 dev 等生成專用模型，以及 Janus-Pro, Show-o2, T2I-R1 等統一多模態模型。

圖 5：UniCorn、BAGEL 和 UniCorn 不同數據設置之間的定性比較。我們的方法共同平衡了視覺美學、即時保真度和生成的真實性。

主要結果：

綜合性能提升：UniCorn 在多個基準上超越了基礎模型 BAGEL 和其他強勁對手。例如，在 TIIF 上達到 74.7（+3.7 vs BAGEL），在 DPG 上達到 86.8（超越 GPT-4o 的 86.2）。

UniCycle 表現：在本文提出的 UniCycle 基準中，UniCorn 取得了最高的 Hard score (46.5)，遠超基礎模型（36.6）和其他模型，證明了其在統一多模態智能方面的優勢。

消融實驗：

數據模式：移除認知模式重構（C, J, R）僅保留生成數據會導致嚴重的模式崩潰（MME-P 分數暴跌）。加入這些模式能穩定生成并提升質量。

架構通用性：在 Janus-Pro 上應用 UniCorn 方法同樣帶來了顯著提升（TIIF +3.2, WISE +7.0）。

擴展定律 (Scaling Law) ：隨著自生成數據量從 1k 增加到 20k，模型性能持續提升。僅需 5k 數據，UniCorn 在 TIIF 上的表現就超越了使用 30k GPT-4o 蒸餾數據訓練的 IRG 模型以及 DALL·E 3，展示了極高的數據效率。

圖 7：TIIF 上的數據縮放結果。當數據集大小擴大時，分數持續提高。值得注意的是，UniCorn 僅使用 5k 訓練數據就超越了許多強大的模型圖 7：TIIF 上的數據縮放結果。當數據集大小擴大時，分數持續提高。值得注意的是，UniCorn 僅使用 5k 訓練數據就超越了許多強大的模型

分析結論：

自我博弈的必要性：使用更強的外部模型（如 Qwen3-VL）構建數據（UniCorn*）并未帶來顯著收益，甚至在 UniCycle 上表現不如完全自監督的 UniCorn，說明外部監督可能帶來不成比例的成本且缺乏統一協調性。

機制驗證：定性分析表明，UniCorn 能夠有效平衡視覺美感、提示忠實度和真實感，通過將理解轉化為生成監督，彌合了兩者間的差距。結論

UniCorn，這是一個自監督的后訓練框架，通過多智能體自我博弈和認知模式重構，將多模態理解和生成統一在單個模型中，在沒有外部監督的情況下將內部潛在知識蒸餾為高質量的生成信號。包括 UniCycle 循環一致性基準在內的廣泛實驗表明，該方法在保持多模態智能的同時顯著改進了 T2I 生成，突顯了自包含反饋循環是統一多模態模型的一條可擴展路徑。

局限性

盡管在 T2I 生成和多模態理解方面都取得了穩健的表現，UniCorn 仍存在一定的局限性。首先，目前的自我提升框架以單輪方式運行，主要增強生成能力，未觀察到理解指標的顯著提升。在未來的工作中，本文打算探索多輪迭代自我博弈，以促進這兩種能力的共同進化。其次，自我博弈機制要求 UMM 處理提示生成、推演和判斷，這不可避免地引入了額外的計算成本。本文計劃在后續研究中調查更高效的方法來簡化這一過程。

參考文獻

[1] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

原文標題 : 強勢斬獲6項SOTA！UniCorn打通理解與生成任督二脈，靠“內省”重構多模態認知