文生圖的“天花板”被捅破了！Gen-Searcher讓AI學會“翻書找答案”：不是背題，是開卷考!

2026-04-02 15:32

作者：Kaituo Feng等

解讀：AI生成未來

亮點直擊

Gen-Searcher：首次探索并訓練了一種用于圖像生成的多模態深度搜索智能體。我們已將該項目完全開源，希望 Gen-Searcher 能為未來的相關研究提供開放的基礎架構。

構建數據pipeline與基準測試：為了支持模型訓練，開發了專門的數據pipeline來構建“搜索密集型”圖像生成數據，并由此產生了兩個訓練數據集：Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。此外還引入了 KnowGen，這是一個極具挑戰性的新基準，專門用于評估在知識密集型真實場景下，基于搜索增強的圖像生成能力。

實驗驗證有效性：廣泛的實驗證明了 Gen-Searcher 的卓越性能。方法使 Qwen-Image 在 KnowGen 基準上提升了約 16個點，在 WISE 基準上提升了約 15個點。

總結速覽

解決的問題

現有的圖像生成模型雖能生成高保真圖像，但根本上受限于預訓練階段獲得的固定內部知識，在需要豐富世界知識或最新信息的真實場景中經常失效。

提出的方案

Gen-Searcher——首個經過訓練的搜索增強圖像生成智能體，能夠執行多跳推理和搜索，收集文本知識和參考圖像以支撐有根據的生成。該工作還構建了專門的數據pipeline，策劃了兩個高質量數據集（Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k），并引入了KnowGen基準用于評估。

應用的技術

采用兩階段訓練方案，先進行監督微調（SFT），再進行基于智能體的強化學習（agentic RL）。RL階段采用雙獎勵反饋機制，結合基于文本的獎勵（，評估輸出文本包含信息的充分性、正確性和生成相關性）和基于圖像的獎勵（，即K-Score，評估最終生成圖像質量），最終獎勵計算公式為。優化使用GRPO算法，優勢函數計算為。

達到的效果

Gen-Searcher在不同圖像生成主干網絡上均帶來顯著提升，如Qwen-Image在KnowGen上的K-Score從14.98提升至31.52（約16.5分提升）。更值得注意的是，訓練于Qwen-Image的Gen-Searcher可直接應用于Seedream 4.5和Nano Banana Pro而無需額外訓練，分別帶來約16分和3分的提升，展現出強大的可遷移性。在WISE基準上，Gen-Searcher將Qwen-Image從0.62提升至0.77。

方法架構

數據集構建

高質量訓練數據對于開發能夠執行多跳深度搜索和推理以進行圖像生成的搜索智能體至關重要。然而，此類數據并非天然存在，因為它需要對齊的搜索密集型提示、智能體搜索軌跡和有根據的圖像的三元組。

為解決這一挑戰，工作設計了一個專門的數據pipeline，自動構建用于搜索支撐圖像生成的訓練數據。整體pipeline包含四個階段：文本提示構建、智能體軌跡生成、有根據的圖像合成，以及數據篩選與策劃。如下圖3所示為該數據策劃pipeline的示意圖。

文本提示構建。首先構建需要在圖像生成前進行深度網絡搜索的文本提示。為確保多樣性和真實的搜索難度，采用兩種互補策略。主要方法使用精心設計的提示工程指導Gemini 3 Pro生成跨廣泛類別的多跳搜索密集型提示，包括動漫、建筑、藝術、天文、生物、名人、化學、文化、工程、電影、游戲、地理、歷史、工業、醫學、物理、政治、海報、宗教和體育。這些提示明確設計為所需信息無法通過單輪搜索獲得，而需要跨網絡的多步證據聚合和分析。

作為補充策略，工作將現有深度研究問答數據集中的樣本轉換為面向圖像生成的提示。具體而言，使用Gemini 3 Pro將信息尋求問題轉換為需要生成被查詢實體或事件的有根據視覺描述的提示。這一策略主要貢獻與一般新聞相關的提示，進一步擴展了多樣化知識場景的覆蓋范圍。

智能體軌跡生成。給定構建的文本提示，生成智能體搜索軌跡以執行深度搜索并收集足夠的證據，用于生成最終的搜索支撐提示以及與所選參考圖像一起提供準確視覺特征。同時，這些軌跡也作為后續監督微調的寶貴監督數據。

具體而言，工作以多輪方式使用Gemini 3 Pro配合一組搜索工具。工具集包括search用于從網絡檢索文本信息、image_search用于通過文本查詢搜索相關圖像，以及browse用于閱讀和分析檢索網頁的詳細內容。在此過程中，智能體持續分析來自環境的文本和視覺反饋，識別有用的證據和參考圖像，并相應地規劃下一步行動。通過這個多輪推理和搜索過程，智能體在最終生成用于圖像合成的有根據提示和一組相關參考圖像之前，逐步聚合來自多個來源的信息。

真實圖像合成。獲得最終有根據的提示和視覺參考后，使用專有圖像生成模型Nano Banana Pro合成相應圖像。生成的圖像作為訓練搜索智能體的合成真實值。此過程產生約30K原始樣本，包括提示、搜索軌跡、有根據的提示、參考圖像和真實圖像。

數據篩選與基準構建。為確保數據質量，進一步采用另一個強大的專有模型Seed1.8從多個角度對生成樣本進行評分，包括提示是否真正需要搜索、生成內容的正確性、對提示的忠實度、視覺美學、文本渲染清晰度和安全性考慮。這些基于模型的分數與基于規則的篩選相結合，例如移除token長度過長或搜索結果不一致的提示。篩選后獲得約17K高質量樣本。

從這個策劃的數據集中，選擇630個人工驗證的樣本來構建一個名為KnowGen的留岀基準，該基準將在后文介紹。剩余的16K樣本用于訓練，并被分成兩個數據集：Gen-Searcher-SFT-10k用于監督微調和Gen-Searcher-RL-6k用于智能體強化學習。工作嚴格確保訓練數據和評估基準之間不存在重疊。

KnowGen基準

為進行評估，工作引入了KnowGen，一個旨在評估知識密集型真實場景中搜索支撐圖像生成的綜合基準。與主要強調提示遵循或視覺質量的傳統文本到圖像基準不同，KnowGen明確關注知識密集型和搜索依賴型生成場景，其中解決提示通常需要從網絡檢索和聚合證據。

KnowGen中的每個樣本都被構建為需要非平凡的外部知識，許多樣本還需要在多個來源上進行多跳搜索。為確保可靠性，所有評估樣本都經過人工驗證。

類別組成。為提供對不同類型搜索支撐生成任務的廣泛覆蓋，工作將KnowGen中的630個樣本分成兩個高級子集：Science & Knowledge和Pop Culture & News。Science & Knowledge子集包括以下類別：天文、生物、化學、物理、工程、醫學、工業、建筑、歷史、地理、宗教、政治、文化、藝術和體育。這些任務通常需要事實性世界知識、實體消歧或領域特定信息，且經常涉及必須正確視覺或文本實現的細粒度有根據細節。

Pop Culture & News子集涵蓋與動漫、游戲、電影、名人、海報和一般新聞相關的提示。與第一個子集相比，這些任務更頻繁地涉及快速變化的現實世界信息、流行文化實體，以及必須準確渲染的提示要求的文本或外觀細節。這種兩部分設計使KnowGen能夠在統一基準內評估相對穩定的知識密集型場景和動態的、高更新的真實場景。如下圖4所示為該基準的類別和示例概覽。

評估指標。為評估KnowGen上的生成質量，工作引入了K-Score，一個旨在從多個角度評估搜索支撐圖像生成的指標。采用GPT-4.1作為評估模型輸出的評判者，遵循WISE基準的做法。對于每個樣本，評估器接收原始文本提示、真實參考圖像和模型生成圖像作為輸入，并從四個維度對生成結果進行評分：faithfulness（忠實度）、visual_correctness（視覺正確性）、text_accuracy（文本準確性）和aesthetics（美學）。

忠實度衡量生成圖像在場景結構級別是否遵循提示，包括要求的主題、關系、設置和請求的格式。視覺正確性評估關鍵有根據的視覺屬性相對于目標概念是否與參考圖像一致且正確，如主題外觀、物體特征或其他外部可驗證的視覺線索。文本準確性衡量圖像中任何提示要求的可讀文本是否存在、清晰且正確；當提示不要求可讀文本時，該維度被視為不適用且不計入平均分。美學衡量生成圖像的整體視覺質量和藝術吸引力，包括構圖、色彩和諧、光照等，評估圖像是否呈現視覺精致和美學愉悅。

按照評估設計，每個維度使用三級離散量表進行評分。具體而言，分數1表示生成圖像完全滿足該維度的要求，0.5表示該維度大致正確或滿足但包含輕微問題或部分不匹配，0表示生成未能滿足該維度的關鍵要求。最終K-Score計算為這些四維度的加權組合：

該加權強調了搜索支撐圖像生成最關鍵的兩個方面，即正確渲染有根據的視覺屬性和準確再現要求的文本內容，同時仍考慮整體提示遵循度和圖像美學。工作分別報告兩個高級子集的K-Score以及KnowGen上的總體平均值。

訓練方案

本節訓練Gen-Searcher作為多模態深度搜索智能體，能夠從網絡迭代收集外部知識和視覺證據以進行圖像生成。訓練方案遵循兩階段pipeline，包括SFT和智能體RL。

搜索工具。Gen-Searcher配備三種搜索工具。第一個是search，執行網絡文本搜索并返回每個查詢的top-k相關網頁URL及其短片段。該工具主要用于驗證事實信息，如實體名稱、事件細節、日期、位置和簡潔描述。第二個是image_search，檢索給定文本查詢的top-k相關圖像，連同圖像URL和簡要描述，使智能體能夠確定身份、物體、地標、服裝和其他細粒度外觀細節。第三個是browse，接收網頁URL作為輸入并返回頁面內容摘要；在實現中，該摘要由Qwen3-VL-30B-A3B-Instruct生成。當淺層搜索結果不足且智能體需要從網頁提取具體證據時使用此工具。在每一步，智能體觀察當前提示和累積的搜索反饋，然后決定是否繼續搜索、檢索視覺參考、瀏覽頁面獲取更多細節，或以最終有根據的提示和所選參考圖像終止。如下圖5所示為Gen-Searcher的代表性推理軌跡示例。

兩階段訓練。工作從Qwen3-VL-8B-Instruct初始化Gen-Searcher。在第一階段，在Gen-Searcher-SFT-10k上進行監督微調，教授模型執行多輪工具使用，包括發出搜索查詢、解釋文本和視覺反饋、選擇有用的參考圖像，以及撰寫最終搜索支撐的提示。在第二階段，在Gen-Searcher-RL-6k上通過強化學習進一步優化模型，使其能夠學習更有效的搜索策略并產生改進的工具調用軌跡。值得注意的是，在訓練期間圖像生成器保持固定；工作僅優化Qwen3-VL-8B-Instruct以生成搜索支撐的提示以及相應的參考圖像。

雙獎勵反饋設計。在該設置中進行RL的自然選擇是直接使用基于圖像的獎勵（如K-Score）來評估最終生成圖像。然而，僅依賴圖像獎勵會導致大量噪聲和不穩定性。這是因為最終圖像質量不僅取決于檢索證據的正確性，還取決于下游圖像生成器的能力和隨機性。特別是對于開源生成器如Qwen-Image，即使智能體已收集正確信息，復雜提示仍可能無法產生高質量圖像，且即使相似的有根據提示也可能導致明顯不同的生成結果。因此，純基于圖像的獎勵引入大方差并使策略優化不穩定。

為解決此問題，工作引入額外的基于文本的獎勵，記為，其評估最終輸出文本是否包含用于合成目標圖像的充分、正確且與生成相關的信息。同樣使用GPT-4.1作為評判者，以五級量表對該獎勵進行評分，取值為。與圖像獎勵相比，文本獎勵為信息收集和證據聚合的質量提供更直接的監督。然而，僅使用文本獎勵也不充分，因為表面上包含充分信息的文本不一定支持高質量圖像生成。僅優化文本獎勵將因此忽略實際最終任務生成結果，并可能鼓勵文本信息豐富但對生成實際無效的輸出。相應提示可在附錄B中找到。

因此，工作結合兩種信號并采用雙反饋獎勵設計，其中基于文本的獎勵監督所收集信息的質量，基于圖像的獎勵反映最終生成性能。最終獎勵計算為：

其中是平衡超參數。這里工作簡單設置并使用K-Score作為。

優化。計算最終獎勵后，工作使用GRPO優化策略。對于查詢下采樣的每個輸出，通過將其獎勵與采樣組內獎勵的均值和標準差進行歸一化來計算優勢：

最終策略更新遵循標準GRPO目標：

其中變量和超參數按照原始GRPO算法定義。

實驗分析

實驗設置。工作使用8塊NVIDIA H800 GPU訓練Gen-Searcher-8B，以Qwen3-VL-8B-Instruct作為基礎模型。首先在Gen-Searcher-SFT-10k上進行監督微調，然后在Gen-Searcher-RL-6k上進行智能體RL訓練。SFT和RL均使用AdamW作為優化器，SFT學習率設為，RL學習率設為，批量大小均設為8。

RL訓練期間，額外在16塊H800 GPU上部署Qwen-Image-Edit-2509以支持rollout圖像生成，因為發現2509版本比2511版本提供更優的文本渲染質量。同時還在8塊H800 GPU上部署Qwen3-VL-30B-Instruct-A3B作為browse工具的摘要模型。為提升效率，設置組大小為6，最大交互輪數限制為10，每輪最多返回5張圖像，最大上下文長度設為36K，每輪模型響應長度限制為4K。按照先前做法，在訓練中屏蔽過長rollout和重復響應的rollout。訓練過程消耗約一天時間。

KnowGen基準結果。如下文表1所示為不同模型在KnowGen基準上的性能。總體而言，KnowGen對當前圖像生成模型（尤其是開源模型）而言是一個極具挑戰性的基準。即使是強大的開源基線如Qwen-Image、HunyuanImage-3.0、FLUX和Z-Image，K-Score也僅達到9到15分左右，表明知識密集型和搜索支撐圖像生成仍遠超出標準文本到圖像系統的能力范圍。相比之下，專有模型表現顯著更好，Nano Banana Pro實現了最強的基線結果50.38，GPT-Image-1.5達到44.97。這一巨大差距表明KnowGen在背景知識檢索和忠實視覺實現方面都提出了重大挑戰，也突顯了開源和專有系統在處理此類任務方面的明顯差異。

該方法在不同圖像生成主干網絡上均帶來顯著提升。與Qwen-Image結合時，Gen-Searcher-8B將總體K-Score從14.98提升至31.52，獲得16.54分的提升。這一大幅提升表明Gen-Searcher能夠通過主動從網絡收集有根據的文本證據和視覺參考，大幅彌補開源圖像生成器內置搜索能力的不足。更重要的是，Gen-Searcher不僅僅是學習特定生成器的提示啟發式，而是學習可遷移的搜索- grounding策略，能夠泛化到不同的下游圖像生成器。

值得注意的是，盡管Gen-Searcher在RL期間使用Qwen-Image作為rollout生成器進行訓練，但它在測試時能夠很好地遷移到其他生成器。特別是，它將Seedream 4.5從31.01提升至47.29，獲得16.28分的提升，并進一步將Nano Banana Pro從50.38提升至53.30，達到表中最佳總體結果。這些結果不僅展示了搜索智能體的有效性，還展示了其在具有非常不同原生能力的圖像生成器間的強大可遷移性和魯棒性。

對四個評估維度的分析表明，Gen-Searcher帶來的增益主要來自visual correctness和text accuracy的提升，這也是KnowGen中最重要的兩個組成部分。這表明該搜索框架使圖像生成器能夠更好地生成需要現實世界知識的準確視覺屬性和文本內容。在某些情況下，觀察到美學分數略有下降，這可能源于生成器需要整合來自多個檢索參考圖像的信息，因此無法始終產生最理想或視覺最愉悅的構圖。

工作還發現Nano Banana Pro上有趣的模式：其提升主要來自visual correctness，而text accuracy幾乎保持不變。一種可能的解釋是Nano Banana Pro已經在內部支持基于文本的搜索，這有助于保持與文本相關的性能，但它不檢索視覺參考圖像，在確定細粒度視覺屬性方面留下了 substantial 的改進空間。

WISE基準結果。如下表2所報告為不同模型在WISE基準上的性能。與KnowGen相比，WISE是一個相對更簡單的基準，但仍需要一定量的世界知識以進行正確的圖像生成。

Gen-Searcher-8B與Qwen-Image結合在WISE上取得最佳總體性能0.77，顯著優于原始Qwen-Image基線的0.62，提升0.15。它也超越了所有其他開源模型，包括LongCat-Image、HunyuanImage-3.0和FLUX.1-dev。觀察各個類別，該方法在Cultural、Time、Space、Biology以及特別是Chemistry上帶來明顯提升，其中Chemistry分數從0.40提升至0.75。這些結果進一步證明Gen-Searcher能夠超越KnowGen進行泛化，并有效增強基于知識的圖像生成基準上的圖像生成能力。

消融實驗。為驗證Gen-Searcher中不同組件的有效性并更好理解每個設計選擇在整體框架中的作用，工作比較了以下變體：

（1）無任何搜索增強的原始Qwen-Image基線；

（2）Qwen-Image + workflow，使用Qwen3-VL-8B-Instruct作為搜索智能體，采用手動設計的基于提示的搜索工作流而無需任何額外訓練；

（3）Qwen-Image + Gen-Searcher-SFT，僅應用監督微調訓練Gen-Searcher而無需強化學習；

（4）Qwen-Image + Gen-Searcher w.o. text reward，移除基于文本的獎勵，RL訓練期間僅使用基于圖像的獎勵；

（5）Qwen-Image + Gen-Searcher w.o. image reward，移除基于圖像的獎勵，RL訓練期間僅使用基于文本的獎勵；

（6）完整的Gen-Searcher模型，包括SFT初始化和提出的智能體RL訓練期間的雙獎勵反饋設計。

如下表3所示，所有組件都對最終性能有積極貢獻。與原始Qwen-Image基線相比，基于提示的工作流將KnowGen分數從14.98提升至22.91，表明僅引入外部搜索就能為知識密集型圖像生成帶來收益。用Gen-Searcher-SFT替換基于提示的工作流進一步提升分數至28.15，證明了直接從軌跡數據學習工具使用行為相對于依賴手動設計提示規則的優勢。這表明在策劃的搜索軌跡上進行監督學習使模型能夠更好地組織搜索行動、整合檢索證據，并為生成產生更有效的有根據提示。

智能體強化學習在SFT基礎上帶來額外收益，完整的Gen-Searcher達到最佳性能31.52。這表明雖然SFT為基本工具使用提供了強大的初始化，但RL對于進一步優化長程搜索行為和提升所收集證據及最終輸出的整體質量仍然至關重要。此外，移除文本獎勵或圖像獎勵都會導致明顯下降，分數分別降至29.59和29.36。這證實了兩個獎勵信號發揮互補作用。文本獎勵為智能體是否在文本層面收集了充分且正確的信息提供更直接的監督，而圖像獎勵將策略與最終生成結果對齊，并鼓勵所收集證據對圖像合成實際有用。總體而言，消融結果驗證了整體框架的有效性，包括學習的搜索行為、智能體RL優化和提出的雙獎勵設計。

定性可視化分析。如下圖6所示為KnowGen基準上的代表性定性示例。總體而言，Gen-Searcher在不同下游生成器上持續提升生成圖像的質量和正確性在知識密集型、真實場景中。首先，觀察到Nano Banana Pro在生成真實、知識密集型場景的準確細粒度視覺屬性方面仍有不足，因為它無法執行圖像搜索以獲取精確的視覺參考。因此，即使某些文本信息正確，生成的身份、物體外觀或建筑細節也可能偏離目標。相比之下，Gen-Searcher通過搜索相關參考圖像并用更準確的有根據視覺證據確定生成過程，從而改進Nano Banana Pro。

一個有趣的發現是，對于Qwen-Image，即使搜索智能體已收集正確信息，由于圖像生成器本身的限制（如多主題一致性問題、文本渲染不佳問題），最終生成有時仍可能不準確。如上文圖6的第四行提供了這樣一個示例，其中搜索內容正確但生成的圖像仍未能忠實地實現所需的多角色細節。總之，這些示例表明Gen-Searcher能夠通過為有根據的文本和視覺證據提供支撐，大幅改進強大的專有模型Nano Banana Pro和開源模型Qwen-Image的生成質量，而某些失敗案例也表明下游圖像生成器的能力仍是一個挑戰。

參數分析。工作進一步分析了雙反饋設計中基于文本獎勵和基于圖像獎勵之間的平衡系數。如下圖7所示為使用不同進行RL訓練的Gen-Searcher性能。觀察到設置或都會導致明顯的性能下降，表明兩個獎勵信號對于有效訓練都是必需的。這與動機一致：僅依賴圖像獎勵由于下游生成器的隨機性和有限能力而引入高方差，而僅依賴文本獎勵忽略所收集信息是否實際支持高質量圖像合成。相比之下，發現當設置在0.3到0.6范圍內時性能持續強勁，表明該方法對該超參數在相對廣泛的范圍內相對不敏感。

結論

該工作提出了Gen-Searcher，這是首個嘗試使用智能體強化學習訓練多模態深度搜索智能體用于知識密集型圖像生成的研究。為實現這一設置，工作構建了專門的數據pipeline，創建了兩個訓練數據集Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k，并引入了KnowGen基準以及K-Score用于評估真實世界知識密集型圖像生成。基于這些資源，工作通過監督微調和具有雙獎勵反饋的智能體強化學習的兩階段方案訓練Gen-Searcher。

大量實驗表明，Gen-Searcher在KnowGen和WISE上都為不同圖像生成主干網絡帶來大幅提升，同時在圖像生成器間展現出強大的可遷移性。該工作期望這一研究能夠成為真實世界圖像生成搜索智能體未來研究的開放基礎。

參考文獻

[1] Gen-Searcher: Reinforcing Agentic Search for Image Generation

原文標題 : 文生圖的“天花板”被捅破了！Gen-Searcher讓AI學會“翻書找答案”：不是背題，是開卷考!