成人免费午夜精品一区二区-亚洲视频在线观看久久-国产原创自拍看在线视频-这里只有精品自拍偷拍亚洲色图-亚洲变态另类色图天堂网-国产欧美日韩亚洲一区-国产精品自拍35页-男人插入女人下面的真实视频-蜜桃臀一区二区三区精品视频

訂閱
糾錯
加入自媒體

文生圖的“天花板”被捅破了!Gen-Searcher讓AI學(xué)會“翻書找答案”:不是背題,是開卷考!

作者:Kaituo Feng等

解讀:AI生成未來

亮點直擊

Gen-Searcher:首次探索并訓(xùn)練了一種用于圖像生成的多模態(tài)深度搜索智能體。我們已將該項目完全開源,希望 Gen-Searcher 能為未來的相關(guān)研究提供開放的基礎(chǔ)架構(gòu)。

構(gòu)建數(shù)據(jù)pipeline與基準(zhǔn)測試:為了支持模型訓(xùn)練,開發(fā)了專門的數(shù)據(jù)pipeline來構(gòu)建“搜索密集型”圖像生成數(shù)據(jù),并由此產(chǎn)生了兩個訓(xùn)練數(shù)據(jù)集:Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。此外還引入了 KnowGen,這是一個極具挑戰(zhàn)性的新基準(zhǔn),專門用于評估在知識密集型真實場景下,基于搜索增強(qiáng)的圖像生成能力。

實驗驗證有效性:廣泛的實驗證明了 Gen-Searcher 的卓越性能。方法使 Qwen-Image 在 KnowGen 基準(zhǔn)上提升了約 16個點,在 WISE 基準(zhǔn)上提升了約 15個點。

總結(jié)速覽

解決的問題

現(xiàn)有的圖像生成模型雖能生成高保真圖像,但根本上受限于預(yù)訓(xùn)練階段獲得的固定內(nèi)部知識,在需要豐富世界知識或最新信息的真實場景中經(jīng)常失效。

提出的方案

Gen-Searcher——首個經(jīng)過訓(xùn)練的搜索增強(qiáng)圖像生成智能體,能夠執(zhí)行多跳推理和搜索,收集文本知識和參考圖像以支撐有根據(jù)的生成。該工作還構(gòu)建了專門的數(shù)據(jù)pipeline,策劃了兩個高質(zhì)量數(shù)據(jù)集(Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k),并引入了KnowGen基準(zhǔn)用于評估。

應(yīng)用的技術(shù)

采用兩階段訓(xùn)練方案,先進(jìn)行監(jiān)督微調(diào)(SFT),再進(jìn)行基于智能體的強(qiáng)化學(xué)習(xí)(agentic RL)。RL階段采用雙獎勵反饋機(jī)制,結(jié)合基于文本的獎勵(,評估輸出文本包含信息的充分性、正確性和生成相關(guān)性)和基于圖像的獎勵(,即K-Score,評估最終生成圖像質(zhì)量),最終獎勵計算公式為 。優(yōu)化使用GRPO算法,優(yōu)勢函數(shù)計算為 。

達(dá)到的效果

Gen-Searcher在不同圖像生成主干網(wǎng)絡(luò)上均帶來顯著提升,如Qwen-Image在KnowGen上的K-Score從14.98提升至31.52(約16.5分提升)。更值得注意的是,訓(xùn)練于Qwen-Image的Gen-Searcher可直接應(yīng)用于Seedream 4.5和Nano Banana Pro而無需額外訓(xùn)練,分別帶來約16分和3分的提升,展現(xiàn)出強(qiáng)大的可遷移性。在WISE基準(zhǔn)上,Gen-Searcher將Qwen-Image從0.62提升至0.77。

方法架構(gòu)

數(shù)據(jù)集構(gòu)建

高質(zhì)量訓(xùn)練數(shù)據(jù)對于開發(fā)能夠執(zhí)行多跳深度搜索和推理以進(jìn)行圖像生成的搜索智能體至關(guān)重要。然而,此類數(shù)據(jù)并非天然存在,因為它需要對齊的搜索密集型提示、智能體搜索軌跡和有根據(jù)的圖像的三元組。

為解決這一挑戰(zhàn),工作設(shè)計了一個專門的數(shù)據(jù)pipeline,自動構(gòu)建用于搜索支撐圖像生成的訓(xùn)練數(shù)據(jù)。整體pipeline包含四個階段:文本提示構(gòu)建、智能體軌跡生成、有根據(jù)的圖像合成,以及數(shù)據(jù)篩選與策劃。如下圖3所示為該數(shù)據(jù)策劃pipeline的示意圖。

文本提示構(gòu)建。首先構(gòu)建需要在圖像生成前進(jìn)行深度網(wǎng)絡(luò)搜索的文本提示。為確保多樣性和真實的搜索難度,采用兩種互補(bǔ)策略。主要方法使用精心設(shè)計的提示工程指導(dǎo)Gemini 3 Pro生成跨廣泛類別的多跳搜索密集型提示,包括動漫、建筑、藝術(shù)、天文、生物、名人、化學(xué)、文化、工程、電影、游戲、地理、歷史、工業(yè)、醫(yī)學(xué)、物理、政治、海報、宗教和體育。這些提示明確設(shè)計為所需信息無法通過單輪搜索獲得,而需要跨網(wǎng)絡(luò)的多步證據(jù)聚合和分析。

作為補(bǔ)充策略,工作將現(xiàn)有深度研究問答數(shù)據(jù)集中的樣本轉(zhuǎn)換為面向圖像生成的提示。具體而言,使用Gemini 3 Pro將信息尋求問題轉(zhuǎn)換為需要生成被查詢實體或事件的有根據(jù)視覺描述的提示。這一策略主要貢獻(xiàn)與一般新聞相關(guān)的提示,進(jìn)一步擴(kuò)展了多樣化知識場景的覆蓋范圍。

智能體軌跡生成。給定構(gòu)建的文本提示,生成智能體搜索軌跡以執(zhí)行深度搜索并收集足夠的證據(jù),用于生成最終的搜索支撐提示以及與所選參考圖像一起提供準(zhǔn)確視覺特征。同時,這些軌跡也作為后續(xù)監(jiān)督微調(diào)的寶貴監(jiān)督數(shù)據(jù)。

具體而言,工作以多輪方式使用Gemini 3 Pro配合一組搜索工具。工具集包括search用于從網(wǎng)絡(luò)檢索文本信息、image_search用于通過文本查詢搜索相關(guān)圖像,以及browse用于閱讀和分析檢索網(wǎng)頁的詳細(xì)內(nèi)容。在此過程中,智能體持續(xù)分析來自環(huán)境的文本和視覺反饋,識別有用的證據(jù)和參考圖像,并相應(yīng)地規(guī)劃下一步行動。通過這個多輪推理和搜索過程,智能體在最終生成用于圖像合成的有根據(jù)提示和一組相關(guān)參考圖像之前,逐步聚合來自多個來源的信息。

真實圖像合成。獲得最終有根據(jù)的提示和視覺參考后,使用專有圖像生成模型Nano Banana Pro合成相應(yīng)圖像。生成的圖像作為訓(xùn)練搜索智能體的合成真實值。此過程產(chǎn)生約30K原始樣本,包括提示、搜索軌跡、有根據(jù)的提示、參考圖像和真實圖像。

數(shù)據(jù)篩選與基準(zhǔn)構(gòu)建。為確保數(shù)據(jù)質(zhì)量,進(jìn)一步采用另一個強(qiáng)大的專有模型Seed1.8從多個角度對生成樣本進(jìn)行評分,包括提示是否真正需要搜索、生成內(nèi)容的正確性、對提示的忠實度、視覺美學(xué)、文本渲染清晰度和安全性考慮。這些基于模型的分?jǐn)?shù)與基于規(guī)則的篩選相結(jié)合,例如移除token長度過長或搜索結(jié)果不一致的提示。篩選后獲得約17K高質(zhì)量樣本。

從這個策劃的數(shù)據(jù)集中,選擇630個人工驗證的樣本來構(gòu)建一個名為KnowGen的留岀基準(zhǔn),該基準(zhǔn)將在后文介紹。剩余的16K樣本用于訓(xùn)練,并被分成兩個數(shù)據(jù)集:Gen-Searcher-SFT-10k用于監(jiān)督微調(diào)和Gen-Searcher-RL-6k用于智能體強(qiáng)化學(xué)習(xí)。工作嚴(yán)格確保訓(xùn)練數(shù)據(jù)和評估基準(zhǔn)之間不存在重疊。

KnowGen基準(zhǔn)

為進(jìn)行評估,工作引入了KnowGen,一個旨在評估知識密集型真實場景中搜索支撐圖像生成的綜合基準(zhǔn)。與主要強(qiáng)調(diào)提示遵循或視覺質(zhì)量的傳統(tǒng)文本到圖像基準(zhǔn)不同,KnowGen明確關(guān)注知識密集型和搜索依賴型生成場景,其中解決提示通常需要從網(wǎng)絡(luò)檢索和聚合證據(jù)。

KnowGen中的每個樣本都被構(gòu)建為需要非平凡的外部知識,許多樣本還需要在多個來源上進(jìn)行多跳搜索。為確?煽啃,所有評估樣本都經(jīng)過人工驗證。

類別組成。為提供對不同類型搜索支撐生成任務(wù)的廣泛覆蓋,工作將KnowGen中的630個樣本分成兩個高級子集:Science & Knowledge和Pop Culture & News。Science & Knowledge子集包括以下類別:天文、生物、化學(xué)、物理、工程、醫(yī)學(xué)、工業(yè)、建筑、歷史、地理、宗教、政治、文化、藝術(shù)和體育。這些任務(wù)通常需要事實性世界知識、實體消歧或領(lǐng)域特定信息,且經(jīng)常涉及必須正確視覺或文本實現(xiàn)的細(xì)粒度有根據(jù)細(xì)節(jié)。

Pop Culture & News子集涵蓋與動漫、游戲、電影、名人、海報和一般新聞相關(guān)的提示。與第一個子集相比,這些任務(wù)更頻繁地涉及快速變化的現(xiàn)實世界信息、流行文化實體,以及必須準(zhǔn)確渲染的提示要求的文本或外觀細(xì)節(jié)。這種兩部分設(shè)計使KnowGen能夠在統(tǒng)一基準(zhǔn)內(nèi)評估相對穩(wěn)定的知識密集型場景和動態(tài)的、高更新的真實場景。如下圖4所示為該基準(zhǔn)的類別和示例概覽。

評估指標(biāo)。為評估KnowGen上的生成質(zhì)量,工作引入了K-Score,一個旨在從多個角度評估搜索支撐圖像生成的指標(biāo)。采用GPT-4.1作為評估模型輸出的評判者,遵循WISE基準(zhǔn)的做法。對于每個樣本,評估器接收原始文本提示、真實參考圖像和模型生成圖像作為輸入,并從四個維度對生成結(jié)果進(jìn)行評分:faithfulness(忠實度)、visual_correctness(視覺正確性)、text_accuracy(文本準(zhǔn)確性)和aesthetics(美學(xué))。

忠實度衡量生成圖像在場景結(jié)構(gòu)級別是否遵循提示,包括要求的主題、關(guān)系、設(shè)置和請求的格式。視覺正確性評估關(guān)鍵有根據(jù)的視覺屬性相對于目標(biāo)概念是否與參考圖像一致且正確,如主題外觀、物體特征或其他外部可驗證的視覺線索。文本準(zhǔn)確性衡量圖像中任何提示要求的可讀文本是否存在、清晰且正確;當(dāng)提示不要求可讀文本時,該維度被視為不適用且不計入平均分。美學(xué)衡量生成圖像的整體視覺質(zhì)量和藝術(shù)吸引力,包括構(gòu)圖、色彩和諧、光照等,評估圖像是否呈現(xiàn)視覺精致和美學(xué)愉悅。

按照評估設(shè)計,每個維度使用三級離散量表  進(jìn)行評分。具體而言,分?jǐn)?shù)1表示生成圖像完全滿足該維度的要求,0.5表示該維度大致正確或滿足但包含輕微問題或部分不匹配,0表示生成未能滿足該維度的關(guān)鍵要求。最終K-Score計算為這些四維度的加權(quán)組合:

該加權(quán)強(qiáng)調(diào)了搜索支撐圖像生成最關(guān)鍵的兩個方面,即正確渲染有根據(jù)的視覺屬性和準(zhǔn)確再現(xiàn)要求的文本內(nèi)容,同時仍考慮整體提示遵循度和圖像美學(xué)。工作分別報告兩個高級子集的K-Score以及KnowGen上的總體平均值。

訓(xùn)練方案

本節(jié)訓(xùn)練Gen-Searcher作為多模態(tài)深度搜索智能體,能夠從網(wǎng)絡(luò)迭代收集外部知識和視覺證據(jù)以進(jìn)行圖像生成。訓(xùn)練方案遵循兩階段pipeline,包括SFT和智能體RL。

搜索工具。Gen-Searcher配備三種搜索工具。第一個是search,執(zhí)行網(wǎng)絡(luò)文本搜索并返回每個查詢的top-k相關(guān)網(wǎng)頁URL及其短片段。該工具主要用于驗證事實信息,如實體名稱、事件細(xì)節(jié)、日期、位置和簡潔描述。第二個是image_search,檢索給定文本查詢的top-k相關(guān)圖像,連同圖像URL和簡要描述,使智能體能夠確定身份、物體、地標(biāo)、服裝和其他細(xì)粒度外觀細(xì)節(jié)。第三個是browse,接收網(wǎng)頁URL作為輸入并返回頁面內(nèi)容摘要;在實現(xiàn)中,該摘要由Qwen3-VL-30B-A3B-Instruct生成。當(dāng)淺層搜索結(jié)果不足且智能體需要從網(wǎng)頁提取具體證據(jù)時使用此工具。在每一步,智能體觀察當(dāng)前提示和累積的搜索反饋,然后決定是否繼續(xù)搜索、檢索視覺參考、瀏覽頁面獲取更多細(xì)節(jié),或以最終有根據(jù)的提示和所選參考圖像終止。如下圖5所示為Gen-Searcher的代表性推理軌跡示例。

兩階段訓(xùn)練。工作從Qwen3-VL-8B-Instruct初始化Gen-Searcher。在第一階段,在Gen-Searcher-SFT-10k上進(jìn)行監(jiān)督微調(diào),教授模型執(zhí)行多輪工具使用,包括發(fā)出搜索查詢、解釋文本和視覺反饋、選擇有用的參考圖像,以及撰寫最終搜索支撐的提示。在第二階段,在Gen-Searcher-RL-6k上通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型,使其能夠?qū)W習(xí)更有效的搜索策略并產(chǎn)生改進(jìn)的工具調(diào)用軌跡。值得注意的是,在訓(xùn)練期間圖像生成器保持固定;工作僅優(yōu)化Qwen3-VL-8B-Instruct以生成搜索支撐的提示以及相應(yīng)的參考圖像。

雙獎勵反饋設(shè)計。在該設(shè)置中進(jìn)行RL的自然選擇是直接使用基于圖像的獎勵(如K-Score)來評估最終生成圖像。然而,僅依賴圖像獎勵會導(dǎo)致大量噪聲和不穩(wěn)定性。這是因為最終圖像質(zhì)量不僅取決于檢索證據(jù)的正確性,還取決于下游圖像生成器的能力和隨機(jī)性。特別是對于開源生成器如Qwen-Image,即使智能體已收集正確信息,復(fù)雜提示仍可能無法產(chǎn)生高質(zhì)量圖像,且即使相似的有根據(jù)提示也可能導(dǎo)致明顯不同的生成結(jié)果。因此,純基于圖像的獎勵引入大方差并使策略優(yōu)化不穩(wěn)定。

為解決此問題,工作引入額外的基于文本的獎勵,記為 ,其評估最終輸出文本是否包含用于合成目標(biāo)圖像的充分、正確且與生成相關(guān)的信息。同樣使用GPT-4.1作為評判者,以五級量表對該獎勵進(jìn)行評分,取值為 。與圖像獎勵相比,文本獎勵為信息收集和證據(jù)聚合的質(zhì)量提供更直接的監(jiān)督。然而,僅使用文本獎勵也不充分,因為表面上包含充分信息的文本不一定支持高質(zhì)量圖像生成。僅優(yōu)化文本獎勵將因此忽略實際最終任務(wù)生成結(jié)果,并可能鼓勵文本信息豐富但對生成實際無效的輸出。相應(yīng)提示可在附錄B中找到。

因此,工作結(jié)合兩種信號并采用雙反饋獎勵設(shè)計,其中基于文本的獎勵監(jiān)督所收集信息的質(zhì)量,基于圖像的獎勵反映最終生成性能。最終獎勵計算為:

其中  是平衡超參數(shù)。這里工作簡單設(shè)置  并使用K-Score作為 。

優(yōu)化。計算最終獎勵后,工作使用GRPO優(yōu)化策略。對于查詢  下采樣的每個輸出 ,通過將其獎勵與采樣組內(nèi)獎勵的均值和標(biāo)準(zhǔn)差進(jìn)行歸一化來計算優(yōu)勢:

最終策略更新遵循標(biāo)準(zhǔn)GRPO目標(biāo):

其中變量和超參數(shù)按照原始GRPO算法定義。

實驗分析

實驗設(shè)置。工作使用8塊NVIDIA H800 GPU訓(xùn)練Gen-Searcher-8B,以Qwen3-VL-8B-Instruct作為基礎(chǔ)模型。首先在Gen-Searcher-SFT-10k上進(jìn)行監(jiān)督微調(diào),然后在Gen-Searcher-RL-6k上進(jìn)行智能體RL訓(xùn)練。SFT和RL均使用AdamW作為優(yōu)化器,SFT學(xué)習(xí)率設(shè)為 ,RL學(xué)習(xí)率設(shè)為 ,批量大小均設(shè)為8。

RL訓(xùn)練期間,額外在16塊H800 GPU上部署Qwen-Image-Edit-2509以支持rollout圖像生成,因為發(fā)現(xiàn)2509版本比2511版本提供更優(yōu)的文本渲染質(zhì)量。同時還在8塊H800 GPU上部署Qwen3-VL-30B-Instruct-A3B作為browse工具的摘要模型。為提升效率,設(shè)置組大小為6,最大交互輪數(shù)限制為10,每輪最多返回5張圖像,最大上下文長度設(shè)為36K,每輪模型響應(yīng)長度限制為4K。按照先前做法,在訓(xùn)練中屏蔽過長rollout和重復(fù)響應(yīng)的rollout。訓(xùn)練過程消耗約一天時間。

KnowGen基準(zhǔn)結(jié)果。如下文表1所示為不同模型在KnowGen基準(zhǔn)上的性能。總體而言,KnowGen對當(dāng)前圖像生成模型(尤其是開源模型)而言是一個極具挑戰(zhàn)性的基準(zhǔn)。即使是強(qiáng)大的開源基線如Qwen-Image、HunyuanImage-3.0、FLUX和Z-Image,K-Score也僅達(dá)到9到15分左右,表明知識密集型和搜索支撐圖像生成仍遠(yuǎn)超出標(biāo)準(zhǔn)文本到圖像系統(tǒng)的能力范圍。相比之下,專有模型表現(xiàn)顯著更好,Nano Banana Pro實現(xiàn)了最強(qiáng)的基線結(jié)果50.38,GPT-Image-1.5達(dá)到44.97。這一巨大差距表明KnowGen在背景知識檢索和忠實視覺實現(xiàn)方面都提出了重大挑戰(zhàn),也突顯了開源和專有系統(tǒng)在處理此類任務(wù)方面的明顯差異。

該方法在不同圖像生成主干網(wǎng)絡(luò)上均帶來顯著提升。與Qwen-Image結(jié)合時,Gen-Searcher-8B將總體K-Score從14.98提升至31.52,獲得16.54分的提升。這一大幅提升表明Gen-Searcher能夠通過主動從網(wǎng)絡(luò)收集有根據(jù)的文本證據(jù)和視覺參考,大幅彌補(bǔ)開源圖像生成器內(nèi)置搜索能力的不足。更重要的是,Gen-Searcher不僅僅是學(xué)習(xí)特定生成器的提示啟發(fā)式,而是學(xué)習(xí)可遷移的搜索- grounding策略,能夠泛化到不同的下游圖像生成器。

值得注意的是,盡管Gen-Searcher在RL期間使用Qwen-Image作為rollout生成器進(jìn)行訓(xùn)練,但它在測試時能夠很好地遷移到其他生成器。特別是,它將Seedream 4.5從31.01提升至47.29,獲得16.28分的提升,并進(jìn)一步將Nano Banana Pro從50.38提升至53.30,達(dá)到表中最佳總體結(jié)果。這些結(jié)果不僅展示了搜索智能體的有效性,還展示了其在具有非常不同原生能力的圖像生成器間的強(qiáng)大可遷移性和魯棒性。

對四個評估維度的分析表明,Gen-Searcher帶來的增益主要來自visual correctness和text accuracy的提升,這也是KnowGen中最重要的兩個組成部分。這表明該搜索框架使圖像生成器能夠更好地生成需要現(xiàn)實世界知識的準(zhǔn)確視覺屬性和文本內(nèi)容。在某些情況下,觀察到美學(xué)分?jǐn)?shù)略有下降,這可能源于生成器需要整合來自多個檢索參考圖像的信息,因此無法始終產(chǎn)生最理想或視覺最愉悅的構(gòu)圖。

工作還發(fā)現(xiàn)Nano Banana Pro上有趣的模式:其提升主要來自visual correctness,而text accuracy幾乎保持不變。一種可能的解釋是Nano Banana Pro已經(jīng)在內(nèi)部支持基于文本的搜索,這有助于保持與文本相關(guān)的性能,但它不檢索視覺參考圖像,在確定細(xì)粒度視覺屬性方面留下了 substantial 的改進(jìn)空間。

WISE基準(zhǔn)結(jié)果。如下表2所報告為不同模型在WISE基準(zhǔn)上的性能。與KnowGen相比,WISE是一個相對更簡單的基準(zhǔn),但仍需要一定量的世界知識以進(jìn)行正確的圖像生成。

Gen-Searcher-8B與Qwen-Image結(jié)合在WISE上取得最佳總體性能0.77,顯著優(yōu)于原始Qwen-Image基線的0.62,提升0.15。它也超越了所有其他開源模型,包括LongCat-Image、HunyuanImage-3.0和FLUX.1-dev。觀察各個類別,該方法在Cultural、Time、Space、Biology以及特別是Chemistry上帶來明顯提升,其中Chemistry分?jǐn)?shù)從0.40提升至0.75。這些結(jié)果進(jìn)一步證明Gen-Searcher能夠超越KnowGen進(jìn)行泛化,并有效增強(qiáng)基于知識的圖像生成基準(zhǔn)上的圖像生成能力。

消融實驗。為驗證Gen-Searcher中不同組件的有效性并更好理解每個設(shè)計選擇在整體框架中的作用,工作比較了以下變體:

(1)無任何搜索增強(qiáng)的原始Qwen-Image基線;

(2)Qwen-Image + workflow,使用Qwen3-VL-8B-Instruct作為搜索智能體,采用手動設(shè)計的基于提示的搜索工作流而無需任何額外訓(xùn)練;

(3)Qwen-Image + Gen-Searcher-SFT,僅應(yīng)用監(jiān)督微調(diào)訓(xùn)練Gen-Searcher而無需強(qiáng)化學(xué)習(xí);

(4)Qwen-Image + Gen-Searcher w.o. text reward,移除基于文本的獎勵,RL訓(xùn)練期間僅使用基于圖像的獎勵;

(5)Qwen-Image + Gen-Searcher w.o. image reward,移除基于圖像的獎勵,RL訓(xùn)練期間僅使用基于文本的獎勵;

(6)完整的Gen-Searcher模型,包括SFT初始化和提出的智能體RL訓(xùn)練期間的雙獎勵反饋設(shè)計。

如下表3所示,所有組件都對最終性能有積極貢獻(xiàn)。與原始Qwen-Image基線相比,基于提示的工作流將KnowGen分?jǐn)?shù)從14.98提升至22.91,表明僅引入外部搜索就能為知識密集型圖像生成帶來收益。用Gen-Searcher-SFT替換基于提示的工作流進(jìn)一步提升分?jǐn)?shù)至28.15,證明了直接從軌跡數(shù)據(jù)學(xué)習(xí)工具使用行為相對于依賴手動設(shè)計提示規(guī)則的優(yōu)勢。這表明在策劃的搜索軌跡上進(jìn)行監(jiān)督學(xué)習(xí)使模型能夠更好地組織搜索行動、整合檢索證據(jù),并為生成產(chǎn)生更有效的有根據(jù)提示。

智能體強(qiáng)化學(xué)習(xí)在SFT基礎(chǔ)上帶來額外收益,完整的Gen-Searcher達(dá)到最佳性能31.52。這表明雖然SFT為基本工具使用提供了強(qiáng)大的初始化,但RL對于進(jìn)一步優(yōu)化長程搜索行為和提升所收集證據(jù)及最終輸出的整體質(zhì)量仍然至關(guān)重要。此外,移除文本獎勵或圖像獎勵都會導(dǎo)致明顯下降,分?jǐn)?shù)分別降至29.59和29.36。這證實了兩個獎勵信號發(fā)揮互補(bǔ)作用。文本獎勵為智能體是否在文本層面收集了充分且正確的信息提供更直接的監(jiān)督,而圖像獎勵將策略與最終生成結(jié)果對齊,并鼓勵所收集證據(jù)對圖像合成實際有用?傮w而言,消融結(jié)果驗證了整體框架的有效性,包括學(xué)習(xí)的搜索行為、智能體RL優(yōu)化和提出的雙獎勵設(shè)計。

定性可視化分析。如下圖6所示為KnowGen基準(zhǔn)上的代表性定性示例?傮w而言,Gen-Searcher在不同下游生成器上持續(xù)提升生成圖像的質(zhì)量和正確性在知識密集型、真實場景中。首先,觀察到Nano Banana Pro在生成真實、知識密集型場景的準(zhǔn)確細(xì)粒度視覺屬性方面仍有不足,因為它無法執(zhí)行圖像搜索以獲取精確的視覺參考。因此,即使某些文本信息正確,生成的身份、物體外觀或建筑細(xì)節(jié)也可能偏離目標(biāo)。相比之下,Gen-Searcher通過搜索相關(guān)參考圖像并用更準(zhǔn)確的有根據(jù)視覺證據(jù)確定生成過程,從而改進(jìn)Nano Banana Pro。

一個有趣的發(fā)現(xiàn)是,對于Qwen-Image,即使搜索智能體已收集正確信息,由于圖像生成器本身的限制(如多主題一致性問題、文本渲染不佳問題),最終生成有時仍可能不準(zhǔn)確。如上文圖6的第四行提供了這樣一個示例,其中搜索內(nèi)容正確但生成的圖像仍未能忠實地實現(xiàn)所需的多角色細(xì)節(jié)?傊,這些示例表明Gen-Searcher能夠通過為有根據(jù)的文本和視覺證據(jù)提供支撐,大幅改進(jìn)強(qiáng)大的專有模型Nano Banana Pro和開源模型Qwen-Image的生成質(zhì)量,而某些失敗案例也表明下游圖像生成器的能力仍是一個挑戰(zhàn)。

參數(shù)分析。工作進(jìn)一步分析了雙反饋設(shè)計中基于文本獎勵和基于圖像獎勵之間的平衡系數(shù) 。如下圖7所示為使用不同  進(jìn)行RL訓(xùn)練的Gen-Searcher性能。觀察到設(shè)置  或  都會導(dǎo)致明顯的性能下降,表明兩個獎勵信號對于有效訓(xùn)練都是必需的。這與動機(jī)一致:僅依賴圖像獎勵由于下游生成器的隨機(jī)性和有限能力而引入高方差,而僅依賴文本獎勵忽略所收集信息是否實際支持高質(zhì)量圖像合成。相比之下,發(fā)現(xiàn)當(dāng)  設(shè)置在0.3到0.6范圍內(nèi)時性能持續(xù)強(qiáng)勁,表明該方法對該超參數(shù)在相對廣泛的范圍內(nèi)相對不敏感。

結(jié)論

該工作提出了Gen-Searcher,這是首個嘗試使用智能體強(qiáng)化學(xué)習(xí)訓(xùn)練多模態(tài)深度搜索智能體用于知識密集型圖像生成的研究。為實現(xiàn)這一設(shè)置,工作構(gòu)建了專門的數(shù)據(jù)pipeline,創(chuàng)建了兩個訓(xùn)練數(shù)據(jù)集Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k,并引入了KnowGen基準(zhǔn)以及K-Score用于評估真實世界知識密集型圖像生成;谶@些資源,工作通過監(jiān)督微調(diào)和具有雙獎勵反饋的智能體強(qiáng)化學(xué)習(xí)的兩階段方案訓(xùn)練Gen-Searcher。

大量實驗表明,Gen-Searcher在KnowGen和WISE上都為不同圖像生成主干網(wǎng)絡(luò)帶來大幅提升,同時在圖像生成器間展現(xiàn)出強(qiáng)大的可遷移性。該工作期望這一研究能夠成為真實世界圖像生成搜索智能體未來研究的開放基礎(chǔ)。

參考文獻(xiàn)

[1] Gen-Searcher: Reinforcing Agentic Search for Image Generation

       原文標(biāo)題 : 文生圖的“天花板”被捅破了!Gen-Searcher讓AI學(xué)會“翻書找答案”:不是背題,是開卷考!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號