ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA
作者:Zihan Zhou,Shilin Lu等
解讀:AI生成未來
亮點(diǎn)直擊
首個(gè)基于 Diffusion Transformer(DiT)架構(gòu)量身打造的圖像精確區(qū)域編輯框架。
研究團(tuán)隊(duì)摒棄了傳統(tǒng)的“逐點(diǎn)追蹤”思路,創(chuàng)新性地使用“區(qū)域仿射監(jiān)督”范式,充分釋放了 FLUX.1 這類先進(jìn) DiT 模型的強(qiáng)大先驗(yàn)?zāi)芰Α?/p>
針對(duì)以往方法在復(fù)雜場(chǎng)景下的失真問題,該方法建立了圖像拖拽編輯的新標(biāo)桿。
為什么 DiT 時(shí)代的拖拽編輯需要新范式?
拖拽式圖像編輯(Drag-based Image Editing)允許用戶通過簡(jiǎn)單的“拖點(diǎn)”交互,實(shí)現(xiàn)對(duì)圖像內(nèi)容的精準(zhǔn)操控,通過提供直接的空間位置干預(yù),該方法在編輯控制性上遠(yuǎn)超文本引導(dǎo)。然而,現(xiàn)有方法大多基于 UNet 架構(gòu)基礎(chǔ)模型,如 Stable Diffusion (SD),普遍存在兩大瓶頸:
先驗(yàn)?zāi)芰Σ蛔悖篠D 生成先驗(yàn)較弱,優(yōu)化后的潛在向量(Latent)常常偏離真實(shí)圖像流形,使編輯后圖像出現(xiàn)扭曲、模糊等失真?zhèn)斡埃?/p>
架構(gòu)不匹配:隨著 DiT 架構(gòu)模型(如 FLUX)成為當(dāng)前視覺生成主流,其強(qiáng)大的生成先驗(yàn)為解決失真問題帶來了曙光。但我們發(fā)現(xiàn),將傳統(tǒng)拖拽策略遷移到 DiT 架構(gòu)上難以帶來直接有效的性能提升。
研究結(jié)果認(rèn)為問題的根源在于 UNet 與 DiT 網(wǎng)絡(luò)層的特征圖粒度存在本質(zhì)差異:

通過可視化(如下圖)可以發(fā)現(xiàn),UNet 的特征多是模糊的語義團(tuán)塊,這意味著我們即使在 UNet 使用“點(diǎn)”級(jí)別操作,依舊可以有效干預(yù)周遭語義信息;而相比之下縮放到同樣大小的 DiT 特征卻能夠清晰勾勒出物體的精細(xì)輪廓,如果依舊對(duì)后者進(jìn)行“點(diǎn)”級(jí)別的追蹤和約束,將難以有效帶動(dòng)區(qū)域特征編輯,如同盲人摸象。

提出的解決方案:DragFlow 編輯框架
為了攻克這一難題,我們提出了 DragFlow,一個(gè)專為 DiT 設(shè)計(jì)的 基于區(qū)域監(jiān)督的 (region-based) 精確編輯框架。其核心創(chuàng)新包括:
區(qū)域級(jí)仿射監(jiān)督 (Region-Level Affine Supervision):用整體區(qū)域的仿射變換替代脆弱的單點(diǎn)追蹤,為 DiT 提供更豐富、更穩(wěn)定的監(jiān)督信號(hào),從根本上解決了特征不匹配問題,并最大化消除了點(diǎn)操作固有的交互歧義;
適配器增強(qiáng)的反演 (Adapter-Enhanced Inversion):集成預(yù)訓(xùn)練的 IP-Adapter 等特征提取與適配器,通過額外注入 ID Embedding 顯著提升在 CFG-distilled 模型(如 FLUX.1)上的主體一致性與反演保真度;
硬約束背景保持 (Hard-Constrained Background Preservation):摒棄使用掩碼損失函數(shù) (Mask Loss) 的經(jīng)典方案,通過自適應(yīng)梯度掩碼(Gradient Mask)對(duì)背景非編輯區(qū)域施加硬性保護(hù),徹底避免了背景污染問題。
多模態(tài)大語言模型 (MLLM) 輔助交互:利用 MLLM 先行分析、理解用戶意圖,生成供用戶選擇的編輯提示詞和操作類型(如平移、形變、旋轉(zhuǎn)),提升交互精度并最大化減少用戶操作負(fù)擔(dān)。
DragFlow 的完整框架如下圖所示,它整合了 MLLM 輔助交互、IP-Adapter ID注入、Key & Value Caching,以及核心部分基于仿射的區(qū)域拖拽優(yōu)化工作流。

方法詳解 | DragFlow:區(qū)域?yàn)橥酰珳?zhǔn)掌控
DragFlow 的設(shè)計(jì)初衷是:將拖拽視為區(qū)域的整體變換,而非孤立點(diǎn)的位移。這套全新的范式,從監(jiān)督方式、背景處理到身份保持,都為 DiT 的特性進(jìn)行了深度定制。
① 區(qū)域級(jí)仿射監(jiān)督:告別“點(diǎn)追蹤”的煩惱
DragFlow 的核心是創(chuàng)新的區(qū)域級(jí)監(jiān)督策略。它不再依賴于在每一步迭代中追蹤手柄點(diǎn)的位置坐標(biāo),而是將用戶指定的源區(qū)域(Source Region)作為一個(gè)整體,通過仿射變換逐步“移動(dòng)”到目標(biāo)位置。
1. 迭代式潛在向量?jī)?yōu)化 (Iterative Latent Optimization)
整個(gè)拖拽過程通過優(yōu)化噪聲化的潛在向量 來實(shí)現(xiàn)。優(yōu)化的目標(biāo)是讓經(jīng)過仿射變換后的目標(biāo)區(qū)域 的特征,與優(yōu)化開始前源區(qū)域 的特征保持一致。
損失函數(shù)設(shè)計(jì)如下:

其中:
是從 DiT 中間層提取的特征。我們發(fā)現(xiàn),DiT 的第 17 和 18 雙流塊(Double-stream Blocks)最適合用于拖拽優(yōu)化。 是用戶指定的源區(qū)域掩碼,而 是在第 k 次迭代中,通過仿射變換計(jì)算出的目標(biāo)區(qū)域掩碼。 表示 Stop-gradient,確保梯度只流向待優(yōu)化的 。
2. 仿射變換驅(qū)動(dòng)的掩碼傳播 (Affine Transformation for Mask Propagation)
目標(biāo)掩碼 由源掩碼 經(jīng)過一個(gè)逐步變化的仿射變換 得到。變換參數(shù) 根據(jù)編輯類型(平移、形變或旋轉(zhuǎn))和迭代步數(shù) 線性插值生成。

這種設(shè)計(jì)的兩大優(yōu)勢(shì):
提供豐富的語義上下文:對(duì)整個(gè)區(qū)域的特征進(jìn)行匹配,相比單點(diǎn)特征,能為 DiT 提供更穩(wěn)定、更魯棒的梯度信號(hào),有效避免局部最優(yōu)和偽影。消除追蹤需求:由于DragFlow通過漸進(jìn)式的幾何移動(dòng)監(jiān)督區(qū)域,而不是追蹤內(nèi)容點(diǎn),該方法從根本上避免了傳統(tǒng)方法中因追蹤失敗而導(dǎo)致的編輯鏈?zhǔn)奖罎栴},過程更加穩(wěn)定可靠。
② 背景與主體保真度:為 DiT 量身定制的策略
僅僅有好的監(jiān)督信號(hào)還不夠,在強(qiáng)大的 DiT 模型上,如何保持背景不變和主體身份一致,是更大的挑戰(zhàn),尤其是在有“反演漂移”問題的 CFG-distilled 模型上。
1. 背景保持:從“軟約束”到“硬隔離”傳統(tǒng)方法使用輔助損失項(xiàng) 來約束背景區(qū)域,但這在 DragFlow 中效果不佳,因?yàn)樗鼤?huì)與拖拽損失 相互競(jìng)爭(zhēng),且對(duì)反演誤差敏感。
我們的方案是施加硬約束:在每次梯度更新后,直接將背景區(qū)域的潛在向量重置為原始未編輯分支的值:

其中:
是包含所有編輯軌跡的背景掩碼。 則是來自一個(gè)純粹的重構(gòu)分支,代表了最保真的原始背景信息。 這種“硬隔離”方法雖然增加少量計(jì)算開銷,但效果遠(yuǎn)超軟約束,能實(shí)現(xiàn)近乎完美的背景保真度。
2. 主體一致性:適配器增強(qiáng)反演
傳統(tǒng)的鍵值注入(KV injection)在 FLUX 這類 CFG-distilled 模型上效果不佳。我們發(fā)現(xiàn),F(xiàn)LUX 的反演漂移問題比 SD 更嚴(yán)重(見下表)。

為此,我們引入了適配器增強(qiáng)反演:在反演和生成過程中,注入一個(gè)預(yù)訓(xùn)練好的開放域適配器(如 IP-Adapter)所提取的主體身份表征。這無需任何額外訓(xùn)練,就能顯著提升反演質(zhì)量和編輯后的主體一致性。
如下圖所示,通過額外在反演和取樣過程中加入 IP-Adapter Embedding 后,人物身份的保持效果遠(yuǎn)超單獨(dú)使用 KV 注入。

實(shí)驗(yàn) | 兩大基準(zhǔn)測(cè)試,全面 SOTA
為了全面評(píng)估 DragFlow,我們構(gòu)建了一個(gè)新的區(qū)域級(jí)拖拽基準(zhǔn) **ReD Bench**,它包含更豐富的區(qū)域-區(qū)域?qū)?yīng)、任務(wù)類型標(biāo)簽(平移、形變、旋轉(zhuǎn))和意圖描述。同時(shí),我們也在現(xiàn)有的 DragBench-DR 上進(jìn)行了兼容測(cè)試。
定量分析
如 Table 2 所示,DragFlow 在基于兩大基準(zhǔn)的多個(gè)指標(biāo)上取得了最佳表現(xiàn):
**平均距離 (Mean Distance (MD))**:DragFlow 取得了最低的 和 ,這兩套 評(píng)估標(biāo)準(zhǔn)分別來源現(xiàn)有的 “點(diǎn)拖拽” 與 “塊拖拽” 方法,該結(jié)果意味著 DragFlow 的編輯結(jié)果與用戶指令的空間對(duì)齊精度達(dá)到了最高。**圖像保真度 (Image Fidelity (IF))**:DragFlow 在背景保真度()、源區(qū)塊到目標(biāo)區(qū)塊的內(nèi)容保真度()以及拖拽前后源區(qū)塊的內(nèi)容區(qū)分度()上名列前茅,證明了其在精準(zhǔn)編輯指定區(qū)域的同時(shí),能最大程度保留圖像質(zhì)量和主體特征。
定性分析
下圖展示了 DragFlow 與其他現(xiàn)有方法的視覺定性比較。無論是復(fù)雜的結(jié)構(gòu)(建筑),非剛性形變(動(dòng)物),還是精細(xì)內(nèi)容(鉆井平臺(tái)),DragFlow 都能精準(zhǔn)地執(zhí)行拖拽指令,同時(shí)保持場(chǎng)景的整體連貫性和真實(shí)質(zhì)感。相比之下,其他現(xiàn)有方法或伴隨嚴(yán)重結(jié)構(gòu)扭曲、變換失敗、或意圖誤解等失敗情況出現(xiàn)。

消融實(shí)驗(yàn)
我們通過逐一添加 DragFlow 的核心組件來驗(yàn)證其有效性。結(jié)果(見 Table 3 和 Figure 6)清晰地表明:
從點(diǎn)基線切換到區(qū)域級(jí)仿射監(jiān)督,MD 指標(biāo)大幅降低 (51.21 -> 31.26),證明了區(qū)域監(jiān)督的優(yōu)越性;加入背景保持模塊后, 從 0.757 飆升至 0.925,背景質(zhì)量顯著提升;最后引入適配器增強(qiáng)反演, 進(jìn)一步提升,主體一致性得到加強(qiáng),同時(shí) MD 也降至最低 (20.15)。
定性分析(如下圖)展示了各項(xiàng)消融操作的前后效果對(duì)比:

同時(shí),消融實(shí)驗(yàn)中使用的多項(xiàng)量化指標(biāo)也證實(shí)了 DragFlow 的各組件都是不可或缺且協(xié)同增效的:

總結(jié) | DragFlow 開啟 DiT 精確編輯新紀(jì)元
DragFlow 是拖拽式編輯領(lǐng)域的一次范式革命,其貢獻(xiàn)與優(yōu)勢(shì)可總結(jié)為:
首創(chuàng) DiT 拖拽框架: 首次成功將拖拽式編輯的能力從 UNet 遷移并適配到更強(qiáng)大的 DiT 架構(gòu)上,釋放了 FLUX 等模型的SOTA級(jí)生成先驗(yàn)。區(qū)域監(jiān)督核心: 提出的“區(qū)域級(jí)仿射監(jiān)督”范式,用整體、魯棒的區(qū)域特征匹配替代了脆弱、稀疏的點(diǎn)特征追蹤,從根本上解決了 DiT 架構(gòu)下的編輯難題。系統(tǒng)性保真設(shè)計(jì): 結(jié)合適配器增強(qiáng)反演與硬約束背景保持,為存在反演漂移的 CFG-distilled 模型提供了兼顧主體一致性與背景純凈度的完整解決方案。構(gòu)建新基準(zhǔn): 推出的 ReD Bench 為區(qū)域級(jí)拖拽編輯的研究提供了更全面、更貼近真實(shí)意圖的評(píng)估標(biāo)準(zhǔn)。
DragFlow 不僅在各項(xiàng)指標(biāo)上全面超越現(xiàn)有方法,更重要的是,它為如何利用新一代 DiT 生成架構(gòu)的強(qiáng)大先驗(yàn)來進(jìn)行精細(xì)化、可控的圖像編輯,指明了一條清晰而有效的道路。
參考文獻(xiàn)
[1] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
原文標(biāo)題 : ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來iPhone 時(shí)刻嗎?
- 8 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 9 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市



分享





