新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

媲美Nano Banana Pro!南科大階躍星辰等開源真實世界圖像恢復之王RealRestorer

2026-04-10 16:04
AI生成未來
關注

作者:Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等

解讀:AI生成未來

該工作由南方科技大學、階躍星辰和中科院深圳先進院等機構聯合完成,并已同步發布論文、項目頁、模型和基準測試。


亮點直擊

真實世界圖像修復,不再只停留在“合成退化”,而是做一個更通用、更能落地的真實世界圖像修復模型。

基于大規模圖像編輯模型改造,兼顧“修得干凈”和“內容不跑偏”,重點保留原圖的場景結構、語義內容和細粒度細節,避免“修復過頭”“內容變形”“語義漂移”等常見問題。

數據、模型、評測三位一體。論文不僅提出了模型本身,還構建了更貼近真實分布的數據生成流程,并推出了新的真實世界評測基準 RealIR-Bench,模型在開源方法中登頂。

總結速覽

解決的問題

真實退化泛化差:傳統圖像修復方法往往在合成退化數據上訓練和評估,一旦遇到真實拍攝中的復雜退化,泛化能力就會明顯下降。

評測方式不夠“真實”:很多修復任務依賴成對干凈圖像來算 PSNR、SSIM,但真實世界場景往往拿不到嚴格對齊的“真值圖”,導致傳統參考式指標并不能準確反映實際修復效果。

開源與閉源之間仍有明顯差距:閉源圖像編輯系統已經展現出較強的真實修復能力,但開源側長期缺少一套可以媲美的方案。

提出的方案

核心框架:RealRestorer以開源圖像編輯模型 Step1X-Edit 為基礎,沿用其大規模 DiT 架構、QwenVL 文本編碼器和 Flux-VAE 表征能力,只微調其中的 DiT 主干,將原本偏高層編輯的能力遷移到低層真實修復任務上。

核心思路:通過大規模的編輯模型的強大先驗,配合合成退化數據和真實退化數據流水線,去訓練一個強大的可以在真實世界場景泛化的圖像修復模型。

關鍵技術點:

構建覆蓋9類真實退化的大規模退化合成管線,引入更細粒度的噪聲建模、分區域擾動和 web 風格退化過程,縮小合成分布與真實分布之間的差距。

額外采集真實退化圖像,并借助高性能模型生成對應配對高質量無退化數據,以進一步貼近真實世界分布。

采用兩階段訓練:第一階段用約 100 萬組合成退化數據做遷移訓練,第二階段再引入約 10 萬組真實退化數據進行監督微調。并在第二階段中使用 Progressively-Mixed 訓練策略,保留少量合成數據,避免模型過擬合真實樣本分布、損失跨任務泛化能力。

應用的技術

大規模圖像編輯模型遷移。大規模圖像編輯模型擁有更強的語義先驗和內容建模能力,因此更有潛力應對復雜真實退化。

合成+真實混合數據構建。作者不是簡單堆數據,而是同時使用合成退化對和真實退化對,以此兼顧可擴展性與真實性。

非參考評測基準。RealIR-Bench 不依賴配對真值圖,而是引入 VLM 來評估 Restoration Score(RS),并結合 LPIPS 衡量內容一致性,最終得到綜合的 Final Score(FS)。

達到的效果

開源SOTA:RealRestorer在 RealIR-Bench 上位居開源方法第一,并在總體排名中位列第三,并且非常接近頂級閉源模型。

多任務表現均衡:論文顯示,RealRestorer在9類任務上都有較強表現,其中在去模糊和弱光增強上拿到最佳結果,在去摩爾紋上位列第二。整體上,它在開源模型中 5 項第一、2 項第二。

內容一致性更強:相比一些“修得很猛但內容跑偏”的生編輯模型方法,RealRestorer更加注重結構、語義和細節的保存,提升了真實應用中的可用性。

具備零樣本泛化能力:除了論文重點覆蓋的9類退化,作者還報告了對未見任務的 zero-shot 泛化能力,例如雪天去退化、老照片修復等場景。

方法

模型設計

RealRestorer基于 Step1X-Edit 進行微調,核心骨干為大規模 DiT,文本側使用 QwenVL 編碼器,圖像則通過 Flux-VAE 映射到潛空間。訓練時凍結 VAE 與文本編碼器,僅微調 DiT 主體,把原本偏“生成/編輯”的能力,逐步遷移到“真實修復”任務上。

數據集構建

論文將訓練數據分為兩部分:

1. 合成退化數據(Synthetic Degradation Data)

從互聯網收集干凈圖像,再對其進行高質量退化模擬。和傳統簡單退化不同,這套流程更加貼近真實拍攝中的復雜退化模式,并借助 SAM-2、MiDaS、VLM 和質量評估模型進行篩選與校驗。 

2. 真實退化數據(Real-World Degradation Data)

直接從網絡采集真實退化圖像,再生成對應的高質量參考圖像,并通過 CLIP、水印檢測、Qwen3-VL 以及低層指標做過濾和一致性檢查,最后配合人工復核保證質量。

訓練方案

RealRestorer采用兩階段訓練:

第一階段:遷移訓練(Transfer Training) 用大規模合成退化對,把圖像編輯模型的高層先驗遷移到圖像修復任務中,建立基礎修復能力。

第二階段:監督微調(Supervised Fine-tuning) 進一步引入真實退化數據,加強模型對真實復雜場景的適應能力。作者特別采用了漸進式混合訓練,在二階段訓練的過程中加入部分合成退化數據對,讓模型在靠近真實分布的同時,不丟掉合成數據帶來的廣泛泛化能力。

二階段訓練全程使用 1024×1024 高分辨率設置。

實驗

RealIR-Bench 是完全由互聯網采集的真實退化圖像組成,共 464 張,覆蓋9類退化,并通過人工過濾保證場景多樣性、退化強度和圖像質量。與傳統“有真值”的合成測試集不同,它更強調真實環境下的修復能力。

評測方式:既看“修沒修好”,也看“內容變沒變”

 論文沒有只看 PSNR/SSIM,而是設計了兩類互補指標: 

R S(Restoration Score):衡量退化去除效果;

 LPIPS/LPS:衡量修復前后內容一致性;

 FS(Final Score):綜合兩者后的最終分數。 

結果表現

實驗表明,RealRestorer在 RealIR-Bench 上持續優于現有開源圖像編輯模型,并取得與頭部閉源系統接近的效果。

消融實驗:兩階段訓練不是“可選項”,而是性能關鍵

為了驗證方案設計是否真的有效,作者對訓練數據和訓練階段做了系統消融。結果顯示,僅使用約 100 萬組合成退化數據進行第一階段訓練時,模型雖然能夠逐步學到基礎修復能力,并在這一階段達到 0.122 的 FS 峰值,但對復雜真實退化的泛化仍然不足,而且隨著訓練繼續推進,還會因為合成數據分布有限而出現性能回落。

進一步引入約 10 萬組真實退化數據后,模型在第二階段能夠快速超過第一階段的最佳分數,并顯著提升真實場景下的泛化能力。但如果繼續在真實數據上訓練過久,模型又會開始出現過擬合,因此作者采用了 early stopping 來控制最終 checkpoint。

作者還進一步比較了不同訓練策略的差異。只用合成退化數據訓練的模型,對復雜真實退化仍顯得“修不干凈”;只用真實退化數據訓練的模型,則容易過擬合退化模式,出現物體形變、人物位置漂移、自然光源被誤刪、過度增強等問題。相比之下,RealRestorer 采用的兩階段方案在“退化去除能力”和“內容結構穩定性”之間取得了更好的平衡。

Progressively-Mixed 策略:防過擬合的關鍵一招

除了兩階段訓練本身,論文還單獨分析了 Progressively-Mixed 策略的作用。作者在第二階段中保留少量合成退化數據,與真實退化數據混合訓練,以避免模型過度貼合有限的真實樣本分布。從可視化結果看,模型在結構一致性和內容保真方面也會更不穩定。換句話說,這個混合策略雖然簡單,但對最終性能和觀感都是真實有效的增益。

User Study:自動化指標和人眼判斷基本一致

為了驗證 RealIR-Bench 這套評測指標是否真的“符合人類直覺”,作者還做了用戶研究。論文共招募 32 名參與者,對 5 個高表現模型生成的 3200 組結果進行排序評價,評價標準包括兩項:一是修復質量,二是內容一致性。結果顯示,從人工主觀偏好來看,Nano Banana Pro 的第一名占比最高,為 32.02%;GPT-Image-1.5 排第二,為 23.83%;RealRestorer 以 21.54% 位列其后。這個排序趨勢與論文中自動評測得到的總體結果基本一致,說明該 benchmark 和指標體系具備較好的可信度。

更進一步,作者還計算了自動指標與人工判斷之間的相關性,包括 Kendall’s τ、Spearman 相關系數(SRCC)和 Pearson 相關系數(PLCC)。結果表明評價指標與人類感知之間達到了中等程度的一致性。對真實世界圖像修復這類缺乏嚴格真值圖的任務來說,這一點非常重要,因為它意味著 RealIR-Bench 不只是“能算分”,而是一定程度上能夠反映真實用戶的主觀觀感。

結論

RealRestorer的意義,不只是“又一個圖像修復模型”,而是給開源社區補上了一塊長期缺失的拼圖: 一個面向真實世界、多退化統一、兼顧修復質量與內容一致性,并且配套完整 benchmark 的開源修復方案。 當然,RealRestorer也存在一些局限:由于基礎模型本身需要 28 步去噪推理,計算成本仍然較高;面對鏡子自拍、極端強退化、復雜物理一致性場景時,模型仍可能失效。

參考文獻

[1] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

       原文標題 : 媲美Nano Banana Pro!南科大&階躍星辰等開源真實世界圖像恢復之王RealRestorer

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號