新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

AI 畫圖終于不再瞎蒙!GenEvolve把開放圖像生成變成可訓練自進化智能體!

2026-06-01 15:26
AI生成未來
關注

作者:Sixiang Chen等

解讀:AI生成未來

很多圖像生成任務,表面上只是讓模型畫一張圖;真正做起來才會發現,難點往往發生在生成之前。

舉個例子:用戶想要某個真實地標,就不能只畫出一個“差不多的建筑”;用戶給了參考圖,就不能只借一點風格,而要保住身份、形態和關鍵材質;用戶要求海報文字、空間關系或者各種模糊的信息,就需要精準的執行所有的信息。

這些問題放在一起,會形成一種很典型的開放生成場景:模型需要先補信息、選參考、拆約束,再把這些內容組織成底層生成器能執行的指令。GenEvolve 關注的正是這一步。它不是把圖像生成看成單次 prompt rewriting,而是把生成前的決策過程建模成一條工具軌跡。

項目主頁:https://ephemeral182.github.io/GenEvolve/

arXiv:https://arxiv.org/abs/2605.21605

GitHub:https://github.com/MeiGen-AI/GenEvolve

模型權重:https://huggingface.co/MeiGen-AI/GenEvolve

數據與評測:https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-BenchGenEvolve 作為生成前的智能體策略,可以與 Qwen-Image-Edit、Nano Banana Pro 等不同渲染器組合。

GenEvolve 作為生成前的智能體策略,可以與 Qwen-Image-Edit、Nano Banana Pro 等不同渲染器組合。生成之前,Agent 需要先做三類判斷

開放圖像生成里,用戶請求缺失的信息并不總是同一種。

第一類缺的是事實依據。真實建筑、產品、公眾人物、歷史事件、科學概念等任務,都需要先把外部知識補齊,否則畫面可能“看起來合理”,但關鍵事實是錯的。

第二類缺的是可用參考。參考圖并不只是給模型看一下風格,它可能承載人物身份、商品結構、局部形態、服飾材質等約束。Agent 要判斷哪張圖值得用,以及參考應該以什么方式進入最終程序。

第三類缺的是生成控制能力。文字渲染、計數、布局、屬性綁定、解剖和材質一致性,經常是開放生成中最容易失手的部分。它們需要被明確成可檢查的約束,而不是只停留在自然語言愿望里。

圍繞這三類需求,GenEvolve 為 Agent 準備了三個入口:search(q) 用來查外部證據,image_search(q) 用來檢索視覺參考,query_knowledge(skill) 用來調取文字、空間、數量、材質等生成知識。Agent 的目標不是“多調用幾個工具”,而是把工具結果整理成 prompt-reference program,再交給底層圖像生成器執行。

GenEvolve 將一次開放生成拆解為工具調用、參考綁定、技能激活和最終程序生成。

GenEvolve 將一次開放生成拆解為工具調用、參考綁定、技能激活和最終程序生成。1)統一"工具編排"范式:單一智能體覆蓋開放生成中的多類需求

GenEvolve 并不是把開放圖像生成拆成若干獨立模塊或工具來分別處理, 而是將開放生成場景中最常見的需求整理為兩大軌道,并統一交給 一個智能體 來完成:

外部知識依賴類:Knowledge-Anchored — 實體識別、事件、地標、商品、可視事實;質量約束依賴類:Quality-Anchored — 文字渲染、空間布局、數量、屬性綁定、解剖、材質一致性、美學、創意轉化。

這里更重要的其實不是"任務名稱本身", 而是這些能力共同對應了一個真實的設計流程:

接到用戶請求 → 搜外部證據 → 找視覺參考 → 激活合適的生成知識 → 寫出可執行的 prompt-reference program → 交給生成器渲染 → 輸出最終成品圖

以往不少方法更像是把"搜索增強"和"圖像生成模塊"簡單拼接在一起,雖然功能上能覆蓋,但整體體驗往往不夠連貫;

而 GenEvolve 更接近一個 "基于工具與經驗工作的智能生成助手":只要給它一條開放請求,它既能調用外部工具收集證據、尋找參考圖,也能根據請求類型激活相應技能,并把所有信息編排成一段 generator-agnostic 的最終程序。

2)"數據—進化—蒸餾"閉環:讓一個 Agent 同時學會用工具與做創作,緩解多約束沖突

要訓練一個真正面向開放圖像生成的 Agent,第一步不是直接把各種任務混在一起做微調,而是先回答一個更基礎的問題:

什么樣的數據,才能教會模型完整地走完"理解請求—查找證據—選擇參考—激活生成知識—寫出最終程序"這一整條鏈路?

GenEvolve-Data 因此不是普通的 prompt-rewriting 數據集,也不是單純的圖文配對數據集。 每個樣本都被設計成一個完整的開放生成問題:有的缺少外部事實,有的依賴視覺參考,有的要求精確文字、數量、布局、材質或解剖結構。 這些請求先由結構化 recipe 控制覆蓋范圍,再交給 Teacher Agent 生成真實的多輪工具軌跡,最后經過 VLM 審計、GT 圖像渲染和視覺過濾,形成可以用于 SFT、自我進化和評測的三種視圖。

在這個數據基礎上,才進入第二個問題:如何讓同一個 Agent 同時處理 Knowledge-Anchored 與 Quality-Anchored 兩類需求? 這里確實會出現任務之間的相互牽制:知識型約束更強調事實正確性與參考一致性,質量型約束更關注像素級可校驗細節。 所以 GenEvolve 沒有把所有信號直接壓進一次訓練,而是采用了一條分階段的路徑:

先在篩選過的工具編排軌跡上做監督微調(SFT 冷啟動),讓 Agent 學會"什么時候該搜、什么時候該看圖、什么時候該激活技能、最后該輸出什么樣的程序";再通過 GRPO + 視覺經驗自蒸餾(SDL) 在帶反饋的 RL 階段做自我進化,把"軌跡級是哪條更好"和"token 級好在哪里"兩層信號同時優化;最后把"經驗"完全燒進權重,部署的 Student 模型 不需要任何 runtime memory —— 檢索庫和特權 Teacher 只在訓練時存在。3)GenEvolve-Bench:用統一基準系統評估開放圖像生成的常見需求

為了更完整地評測這類任務,我們構建了 GenEvolve-Bench, 這是一個面向開放圖像生成的統一測試基準,覆蓋 Knowledge-Anchored / Quality-Anchored 兩條主軌,并據此進行了系統化評估。

實驗結果表明,GenEvolve 在兩條軌道上的表現更加均衡。 尤其是在對外部世界知識要求更高的 Knowledge-Anchored 任務上,優勢更加明顯; 而在文字、數量、版式、材質等可校驗細節的 Quality-Anchored 任務上,也展現出更好的穩定性。

在統一且公平的評測方式下(KScore:Faithfulness 0.1 / Visual 0.4 / Text 0.4 / Aesthetic 0.1,由 Gemini 3.1 Pro Preview 作為視覺判分器),GenEvolve 的整體效果已經超過當前主流的開源直生成器與 agentic 工作流,并在搭配強生成器時取得當前最高的 KScore。

我們額外在公開的 WISE 知識密集型基準上做外推:用 8B 開源策略 + 開源 Qwen-Image-Edit 渲染器,整體 WiScore 達到 0.82,超過 GPT-4o(0.80) 與所有 agentic baseline。

方法論

GenEvolve 的核心目標,是把真實開放圖像生成場景中常見的

"一句開放請求 + 多種硬約束"

統一建模為 one self-evolving agent for tool-orchestrated open-ended image generation。

換句話說,它希望一個智能體同時具備兩類能力:

一方面能完成對世界知識的檢索、參考圖選取與綁定、外部證據到生成程序的轉寫; 另一方面也能在程序級別準確表達數量、文字、版式、解剖、材質等硬約束; 并且在同一個框架下兼顧"事實是否正確"和"畫面是否符合所有要求"。

為了實現這一點,我們設計了一套完整的 數據—專家—進化—蒸餾 的訓練流程, 并在最后結合 視覺經驗自蒸餾,將"最佳/最差軌跡的差異"顯式蒸餾到部署模型, 從而盡可能減輕多約束訓練中的相互牽制問題。

GenEvolve 方法總覽:student 采樣多條工具編排軌跡;最優/最差對蒸餾成結構化 Decision Guide,只交給特權 Teacher,再用 token 級反向 KL 蒸餾回部署的 Student。

GenEvolve 方法總覽:student 采樣多條工具編排軌跡;最優/最差對蒸餾成結構化 Decision Guide,只交給特權 Teacher,再用 token 級反向 KL 蒸餾回部署的 Student。階段 1:自動化數據構建與 GenEvolve-Data

統一智能體要真正具備泛化能力,前提是擁有高質量、可控、覆蓋多類約束的 工具編排軌跡 數據。

為此,GenEvolve 首先搭建了一套自動化數據生產流程,構建出 GenEvolve-Data,并同步建立評測集 GenEvolve-Bench。

整個流程可以理解為一個完整的數據閉環:

結構化 Recipe → 自然請求 prompt → Teacher Agent 多輪工具軌跡 → VLM 審計 → GT 圖像渲染 → 視覺過濾 → 訓練/RL/Bench 三套切分

GenEvolve-Data 與 GenEvolve-Bench 的數據閉環:從結構化 recipe 到 Teacher 工具軌跡、VLM 審計、GT 圖像渲染、視覺過濾,再切分為 SFT / 自我進化 / 評測三視圖。

GenEvolve-Data 與 GenEvolve-Bench 的數據閉環:從結構化 recipe 到 Teacher 工具軌跡、VLM 審計、GT 圖像渲染、視覺過濾,再切分為 SFT / 自我進化 / 評測三視圖。

也就是說,我們不是簡單拼接現成樣本,而是先生成更貼近真實開放生成需求的請求,再經過嚴格過濾和任務化改造,最終沉淀為可訓練、可評測的數據體系。

從類別分布上看,GenEvolve-Data 被組織成兩條主軌:Knowledge-Anchored 與 Quality-Anchored。 前者覆蓋建筑、街景、公眾人物、產品、交通工具、事件、科學、文物等外部知識相關場景; 后者覆蓋文字/版式、空間關系、計數、解剖、屬性綁定、材質、美學和創意轉化等可見質量約束。 這樣的設計讓 benchmark 不只測試"畫得好不好看",而是測試 Agent 是否能根據請求類型選擇合適的證據、參考圖和生成技能。

GenEvolve-Data 的類別層級:兩條主軌各覆蓋 8 類診斷場景,用于控制數據覆蓋、分層切分與 benchmark 分析。

GenEvolve-Data 的類別層級:兩條主軌各覆蓋 8 類診斷場景,用于控制數據覆蓋、分層切分與 benchmark 分析。

從構建統計上看,數據也經歷了比較強的過濾:

prompt pool 保留 19,990 個有效請求;其中 19,320 條通過結構檢查進入軌跡階段,最終保留 13,379 條高質量過濾軌跡;SFT 軌跡為 8,800 條;GT 圖像生成成功 4,321 張,視覺過濾后保留 3,175 個視覺反饋 case;自我進化訓練池為 2,575 個 case,held-out benchmark 為 594 個 case。GenEvolve-Data 構建統計:左側是 prompt 到 SFT 軌跡的過濾過程;右側是 GT 圖像、視覺過濾、自我進化樣本與 held-out benchmark 的切分。

GenEvolve-Data 構建統計:左側是 prompt 到 SFT 軌跡的過濾過程;右側是 GT 圖像、視覺過濾、自我進化樣本與 held-out benchmark 的切分。

(1)請求與基礎軌跡生成:更貼近真實開放生成需求

GenEvolve 所使用的請求并不是普通的 caption, 而是先組合 任務族 / 缺失外部證據 / 視覺錨點 / 主導生成要求 / 難度 等信息, 再借助 VLM 把它們擴展成自然但帶有硬約束的開放式請求; 隨后讓 Teacher Agent(Seed 2.0 / Gemini 3 Pro)走一次真實的多輪工具循環:發起文本搜索、拉視覺參考、激活生成知識,最終輸出 prompt-reference program。

工具調用順序是請求驅動的:知識密集型請求往往先做事實查找;參考敏感型請求更早依賴圖像搜索;質量驅動型請求會更早激活內部生成知識。

(2)多模態過濾:保證數據既能訓練,也能評測

對于合成數據而言,真正的瓶頸往往不在數量,而在 噪聲控制。 因此,我們設計了一套分層過濾機制,用來保證訓練集和評測集的可靠性。

軌跡過濾:程序化檢查清除不完整的工具循環、無效參考、URL/ID 泄露、缺少 ordinal binding、過分簡化的最終程序;再由 VLM 判分器審核"參考是否真支持畫面"、"證據是否被采用"、"程序是否覆蓋所有硬約束"。GT 圖像過濾:高質量的 Teacher 程序由 Nano Banana Pro 渲染成 GT 圖像,再經第二道視覺過濾檢查 prompt 一致性、參考使用率、視覺連貫性、生成質量。三視圖切分:最終保留的樣本切為 SFT 視圖(保留完整工具循環、不暴露 GT 圖像)、自我進化視圖(保留請求 + GT 圖像 + 元數據)、GenEvolve-Bench 評測集,覆蓋 Knowledge / Quality 兩條軌道。階段 2:SFT 冷啟動(先教 Agent 如何"會用工具")

如果直接把模型甩進 RL 里采軌跡,最容易出現的問題就是 早期采樣的工具調用極度不穩定:什么時候該搜、參考要不要替換、技能要不要調、最終程序怎么寫……都需要先有一套合格的"會用工具"的初值。

為此 GenEvolve 先在篩選后的 Teacher 軌跡上做一次冷啟動 SFT。

訓練對象:Qwen3-VL-8B-Instruct 的語言策略部分(視覺編碼器凍結,僅優化 assistant 端 token,含/ /);訓練棧:LLaMA-Factory 長上下文(cutoff 32K)、bf16 + FlashAttention-2、ZeRO-3、AdamW 優化器 + 余弦學習率;退出準則:以 held-out 軌跡 loss 而非 benchmark 性能選 ckpt,避免在 SFT 階段過早過擬合到判分器。

冷啟動結束后得到的 GenEvolve-SFT,可以理解為"一個學生學會了 Teacher 那一整套工具調用 + 程序寫法 的范式",但還沒有學到"什么樣的軌跡真正會得到高分圖"。

階段 3:GRPO + 視覺經驗自蒸餾(SDL)

監督微調能讓模型學會"會用",但很難進一步讓模型學會"用得更好、更像高水準設計師"。

我們在 RL 階段引入兩層信號同時優化:

(1)軌跡級:GRPO + 混合獎勵

對每個用戶請求,智能體采 6 條 rollout,每條產生一個程序 z,再交給生成器渲染圖像。我們用兩個判分器同時打分:

KScore 視覺判分:四維 Faithfulness / Visual / Text / Aesthetic(權重 0.1 / 0.4 / 0.4 / 0.1);程序充分性文本判分:5 檔評分 {0, 0.25, 0.5, 0.75, 1},看程序是否承載了足夠的事實、ordinal 引用、技能激活與可執行的硬約束。

最終獎勵 R = 0.5 R_img + 0.5 R_text,作為 GRPO 的 group-relative 優勢信號。

(2)Token 級:視覺經驗自蒸餾

僅有 trajectory-level 的獎勵還不夠 —— 它告訴你"哪條軌跡更好",但不告訴模型"為什么這條更好"。GenEvolve 的關鍵貢獻,是把"為什么"這件事變成可學習的 token-level 信號:

對每個 prompt 的 6 條 rollout,挑出最優/最差對(要求獎勵差距 ≥ δ_min),讓 Gemini 3.1 Pro Preview 把這對差異蒸餾成一段結構化的Decision Guide:retrieval_key:trigger 短語 + source-prompt summary;decision_guidance:6 類祈使式 bullet(推薦工具計劃 / 搜索查詢 / 技能路由 / 參考選擇 / 程序寫法 / 失敗防御)。這些 Decision Guide 進入 prompt-keyed 滾動 buffer(容量 500),按 embed(trigger + summary) 用 Qwen3-Embedding-0.6B 建立檢索索引。訓練時按 cosine 相似度(gate ≥ 0.84)拉回 top-1 Guide,只把它注入 Teacher 視角;Student 始終只看普通 system prompt。SDL 用 importance-weighted 反向 KL,讓 Student 在同一批 on-policy token 上向 Teacher 分布對齊 —— 但只在決策關鍵的 token 上做:Decision-only mask:只保留 /塊內的 token;Top-K 過濾:每條序列內只保留 |log π_E − log π_S| 最大的前 10%。

一句話總結:在最關鍵的幾十個決策 token 上,讓 Student 學會"看到了 Decision Guide 的人會怎么做",但部署時 Student 不需要任何檢索庫。這正是 GenEvolve 把"經驗"完全燒進權重的關鍵。

這張圖展示了 SDL 在 token 層面到底學到了什么。左邊是 Teacher 反對 Student 的情況:Student 原本傾向于輸出一些泛化或填充式 token,但 Teacher 在 Decision Guide 的幫助下,會把概率質量重新分配到更關鍵的動作上,比如先調用工具、明確空間布局、錨定事實身份、選擇參考圖。右邊是 Teacher 支持 Student 的情況:當 Student 已經朝正確方向走時,Teacher 進一步提高正確決策 token 的概率,讓模型在后續訓練中更堅定地復用這些策略。

SDL 的 token-level 證據:Teacher 一方面會糾正 Student 的錯誤決策 token,另一方面會放大已有正確決策的概率,使視覺經驗最終沉淀到部署模型權重中。

SDL 的 token-level 證據:Teacher 一方面會糾正 Student 的錯誤決策 token,另一方面會放大已有正確決策的概率,使視覺經驗最終沉淀到部署模型權重中。(a) 混合獎勵曲線隨訓練步數穩定上升;(b) SDL 反向 KL 損失逐步下降。兩條信號同時改善,說明 GRPO 提供"哪條更好"的軌跡級信號,SDL 提供"為什么更好"的 token 級信號。

(a) 混合獎勵曲線隨訓練步數穩定上升;(b) SDL 反向 KL 損失逐步下降。兩條信號同時改善,說明 GRPO 提供"哪條更好"的軌跡級信號,SDL 提供"為什么更好"的 token 級信號。實驗:GenEvolve 到底強在哪里?

我們把評測拆成四塊:統一基準(GenEvolve-Bench) → 主結果 → 消融實驗 → 跨基準外推(WISE)與定性對比。

1)GenEvolve-Bench:把"開放圖像生成的常見需求"整理成統一評測基準

我們首先構建了一個面向開放圖像生成的統一評測基準 GenEvolve-Bench,覆蓋兩大軌道:Knowledge-Anchored / Quality-Anchored。 為了盡量貼近真實使用場景,Bench 同時包含兩類輸入形式(僅文本請求 / 文本請求 + 用戶參考圖),并在多個主題(實體、地標、商品、事件、文字、布局、計數、屬性、解剖、材質、美學、創意)上保持均衡分布。

在評測方式上,我們采用強 VLM(Gemini 3.1 Pro Preview)對結果進行打分:

既評價 視覺細節正確性(事實接地、參考一致、可校驗細節);也評價 整體質量(構圖、文字、美學);

并最終在四個維度上給出 KScore,加權匯總為最終指標。

更直觀地說,這個 benchmark 測的不是"能不能生成一張圖",而是"能不能像一個合格的 agent 一樣,把世界知識、參考圖、生成知識全部編排好"。

2)定量結果:開源最強,搭配強生成器拿下當前最高

在 GenEvolve-Bench 上,我們對比了主流的 直生成 baseline(Lumina-Image 2.0 / BAGEL / SD-3.5 / FLUX.1-dev / FLUX.2 Klein / Z-Image / Qwen-Image / Nano Banana Pro 等)和 agentic baseline(Gen-Searcher 等)。結果非常清晰:

同樣接 Qwen-Image-Edit-2511 這類開源生成器:GenEvolve 在 Knowledge / Quality 兩條軌道上都有明顯提升,KScore 從 Gen-Searcher 的 0.3493 提升到 0.3663(Visual 維度由 0.1050 提升到 0.1338),尤其在 Knowledge-Anchored 這類更依賴事實接地的任務上增幅更大;搭配更強的 Nano Banana Pro:GenEvolve 的 KScore 直接抬到 0.5739,四個 judge 維度和兩條 benchmark 軌道均達到最高。即便是 Nano Banana Pro 自己的"裸"直生成(KScore 0.5298),也明顯落后于"裸 Nano + GenEvolve 編排",說明 agent 端的工具編排帶來的提升是生成器無關的GenEvolve-Bench 主結果。GenEvolve + Qwen-Image-Edit-2511 是最佳開源生成器設置;GenEvolve + Nano Banana Pro 在整體 KScore、Knowledge-Anchored 和 Quality-Anchored 上均取得最高分。

GenEvolve-Bench 主結果。GenEvolve + Qwen-Image-Edit-2511 是最佳開源生成器設置;GenEvolve + Nano Banana Pro 在整體 KScore、Knowledge-Anchored 和 Quality-Anchored 上均取得最高分。

從完整表格可以看到幾個更細的趨勢:

直接生成器的整體審美分通常不差,但在需要事實接地、參考一致或精確布局時,Visual correctness 容易成為短板;當底層生成器固定為 Qwen-Image-Edit-2511 時,GenEvolve 比 Gen-Searcher 更擅長把搜索證據、參考圖和生成技能寫進最終程序;當底層生成器換成 Nano Banana Pro 時,同一套 Agent 策略還能繼續放大強生成器的上限,說明 GenEvolve 學到的是可遷移的編排策略,而不是某個渲染器上的 prompt trick。3)消融實驗:每個訓練階段到底貢獻了什么?

為了確認提升來自哪里,我們進一步做了 component ablation。結果顯示,單純把 Qwen3-VL 接上同一套工具接口,已經能比裸 Qwen-Image 更好;SFT 冷啟動能繼續提高工具調用和最終程序質量;GRPO 提供軌跡級獎勵后再往上推一截;而完整的 GRPO + SDL 取得最高 KScore。

這組結果說明兩點:

第一,會用工具 和 用工具用得好 是兩件事。Untuned workflow 已經具備工具入口,但沒有經過軌跡監督和視覺反饋,很難穩定寫出高質量 prompt-reference program。

第二,GRPO 的 scalar reward 能告訴模型"哪條軌跡更好",但 SDL 提供的是更細的 token-level credit assignment:它把最佳/最差軌跡之間可復用的經驗蒸餾到關鍵動作 token 上,因此最終在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 三個最關鍵維度上都繼續提升。

4)跨基準外推:WISE 上超過 GPT-4o

我們額外在 WISE 這一公開的知識密集型圖像生成基準 上做外推:

注意:GenEvolve 在 WISE 上 不做任何 in-domain 微調,純靠跨任務轉移:用一個 8B 開源策略 + 開源 Qwen-Image-Edit 渲染器,在 WiScore Overall 上 超過 GPT-4o;化學一項更是甩開 GPT-4o 9 個百分點。

5)定性對比:為什么說它"在編排"而不是"在炫工具"?

定性結果里最典型的兩類失敗,我們在很多 baseline(包括部分商業系統)上都能反復看到:

Knowledge-Anchored 失敗:模型要么沒去搜,要么搜回來的事實沒真正進 gen_prompt,導致 身份錯位、年代錯亂、結構比例失真。GenEvolve 更偏向去抽取關鍵事實,再把它顯式寫進最終程序里的 ordinal binding 與硬約束,使"被采用的事實"真的進畫面。Quality-Anchored 失敗:很多系統在文字、計數、版式上"看起來像,但拼寫錯"或"數對了但布局塌"。GenEvolve 通過 query_knowledge 主動激活專門技能(text_rendering / quantity_counting / spatial_layout / material_consistency 等),并在程序里寫出可校驗的硬約束,使得這些維度更穩。在 GenEvolve-Bench 上的定性對比。橙色:依賴外部知識;藍色:依賴內部生成技能。

在 GenEvolve-Bench 上的定性對比。橙色:依賴外部知識;藍色:依賴內部生成技能。GenEvolve + Nano Banana Pro 的擴展畫廊。

GenEvolve + Nano Banana Pro 的擴展畫廊。GenEvolve + Qwen-Image-Edit 的擴展畫廊(與上一張使用同一套 GenEvolve 程序,僅切換底層渲染器)。

GenEvolve + Qwen-Image-Edit 的擴展畫廊(與上一張使用同一套 GenEvolve 程序,僅切換底層渲染器)。參考文獻

[1] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

技術交流社區免費開放

這是一個高質量AIGC技術社群。

涉及 內容成/理解(圖像、視頻、語音、文本、3D/4D等)、大模型、具身智能、自動駕駛、深度學習及傳統視覺等多個不同方向。這個社群更加適合記錄和積累,方便回溯和復盤。愿景是聯結數十萬AIGC開發者、研究者和愛好者,解決從理論到實戰中遇到的具體問題。倡導深度討論,確保每個提問都能得到認真對待。

       原文標題 : AI 畫圖終于不再瞎蒙!GenEvolve把開放圖像生成變成可訓練自進化智能體!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號