別再被你家的AI騙了!D Lab社區(qū)最新方法TraceLift揭穿‘假推理’,模型思考過(guò)程真正靠譜
作者: Tianyang Han等
解讀:AI生成未來(lái)
TraceLift:讓推理過(guò)程真正“幫得上忙”
正確答案不是終點(diǎn)。對(duì) planner-executor 系統(tǒng)來(lái)說(shuō),一段推理軌跡的價(jià)值取決于它能不能讓后續(xù)執(zhí)行器更容易做對(duì)。
從“答案對(duì)不對(duì)”到“推理有沒(méi)有用”
過(guò)去幾年,大模型推理能力的提升很大程度上依賴(lài)可驗(yàn)證反饋:數(shù)學(xué)題看最終答案,代碼題跑單測(cè),能通過(guò)就給獎(jiǎng)勵(lì)。這套邏輯簡(jiǎn)單、直接,也很有效。但當(dāng) reasoning trace 不再只是解釋?zhuān)菚?huì)被后續(xù)模型、工具或執(zhí)行器繼續(xù)消費(fèi)時(shí),問(wèn)題就變復(fù)雜了。
很多系統(tǒng)已經(jīng)不再是“一個(gè)模型直接給最終答案”,而是變成兩階段流程:planner 先寫(xiě)推理、計(jì)劃、約束或中間步驟,executor 再根據(jù)這些內(nèi)容生成最終代碼、答案或動(dòng)作。在這種情況下,最終結(jié)果正確只能說(shuō)明系統(tǒng)最后跑通了,卻不一定說(shuō)明 planner 寫(xiě)出的推理本身可靠。一個(gè) trace 可能看起來(lái)很流暢,也可能剛好導(dǎo)向了正確答案,但它未必真的包含 executor 需要的關(guān)鍵信息。
TraceLift 關(guān)注的就是這個(gè)更細(xì)的問(wèn)題:如何訓(xùn)練一個(gè) reasoning planner,讓它生成的推理不僅表面合理,而且真的能提升 frozen executor 的成功率。
TraceLift 的核心觀點(diǎn)
TraceLift 把 reasoning trace 看作一種“中間產(chǎn)物”,而不是普通解釋文本。這個(gè)中間產(chǎn)物的質(zhì)量不該只由最終答案決定,也不該只由 LLM judge 判斷是否寫(xiě)得像推理,而應(yīng)該看它對(duì)后續(xù) executor 的實(shí)際幫助。
它的訓(xùn)練框架可以概括為三部分:planner 生成 reasoning trace,frozen executor 消費(fèi) trace 并生成最終 artifact,verifier 判斷最終 artifact 是否正確。TraceLift 在這個(gè)基礎(chǔ)上額外引入一個(gè) Reasoning Reward Model,用來(lái)評(píng)估 trace 本身的推理質(zhì)量,并用 executor uplift 去衡量:同一個(gè) frozen executor 在“有這段 reasoning”和“沒(méi)有 reasoning”時(shí),成功率是否真的變高。 方法如下圖:

TraceLift framework overview
最終 reward 不是單一的 outcome reward,而是把三類(lèi)信號(hào)結(jié)合起來(lái):最終任務(wù)是否成功、推理軌跡本身是否高質(zhì)量、這段推理是否真的提升了 executor。這樣一來(lái),模型不會(huì)只因?yàn)?ldquo;答案碰巧對(duì)了”就得到高獎(jiǎng)勵(lì),也不會(huì)只因?yàn)?ldquo;推理寫(xiě)得很像樣”就被過(guò)度獎(jiǎng)勵(lì)。
TraceLift-Groups:專(zhuān)門(mén)學(xué)習(xí)“推理質(zhì)量”的數(shù)據(jù)
為了讓 Reasoning RM 學(xué)會(huì)區(qū)分推理質(zhì)量,TraceLift 構(gòu)造了 TraceLift-Groups。這個(gè)數(shù)據(jù)集不是簡(jiǎn)單收集題目和答案,而是圍繞同一個(gè)問(wèn)題構(gòu)造一組 reasoning traces:一條高質(zhì)量參考 trace,以及多條經(jīng)過(guò)局部擾動(dòng)的 flawed traces。這些 flawed traces 仍然和任務(wù)相關(guān),但會(huì)破壞關(guān)鍵推理支持。
數(shù)據(jù)來(lái)自?xún)蓚(gè)方向:GSM8K train 和 OpenCodeReasoning,總共構(gòu)造了 6,000 個(gè) reasoning groups。代碼任務(wù)中的擾動(dòng)包括錯(cuò)誤算法、遺漏邊界情況、off-by-one reasoning、不正確不變量、不可行復(fù)雜度、空泛偽解等;數(shù)學(xué)任務(wù)中的擾動(dòng)包括算術(shù)錯(cuò)誤、錯(cuò)誤操作、遺漏條件、單位不匹配、無(wú)支撐跳步、過(guò)早給答案等。 這個(gè)設(shè)計(jì)的重點(diǎn)是:讓 RM 學(xué)到“同一個(gè)問(wèn)題下,哪條推理更可靠、更能支撐后續(xù)執(zhí)行”,而不是簡(jiǎn)單學(xué)習(xí)“最終答案是否正確”。
代表結(jié)果:TraceLift 到底提升在哪?
下面只放幾組最能說(shuō)明問(wèn)題的結(jié)果,不鋪滿所有表格。
1. Code:planner 寫(xiě)得更好,executor 真的更容易過(guò)測(cè)試
在代碼任務(wù)中,TraceLift 使用固定 planner-executor 協(xié)議:planner 先生成 reasoning,frozen executor 再根據(jù) reasoning 寫(xiě)代碼,最后用測(cè)試判斷代碼是否正確。也就是說(shuō),評(píng)測(cè)時(shí) executor 不變,變化的是 planner 產(chǎn)生的中間推理。
在 Qwen3-4B 上,TraceLift 相比 Exec-only 在所有代碼 benchmark 上都有提升。

這組結(jié)果說(shuō)明,TraceLift 不是讓 executor 變強(qiáng),而是讓 planner 生成了更適合 executor 消費(fèi)的推理。對(duì)代碼任務(wù)來(lái)說(shuō),這通常意味著更清楚的算法路線、更完整的邊界條件、更明確的數(shù)據(jù)結(jié)構(gòu)和實(shí)現(xiàn)約束。
2. Math:推理軌跡越關(guān)鍵,TraceLift 越有價(jià)值
數(shù)學(xué)任務(wù)更依賴(lài)中間步驟是否真的支撐最終答案。變量定義、單位、運(yùn)算順序、條件保留、中間量跟蹤,任何一處出錯(cuò)都可能讓后續(xù) executor 被帶偏。 在 Qwen2.5-7B 上,TraceLift 在數(shù)學(xué) benchmark 上的收益非常明顯。

尤其是 SVAMP 上的 +21.00 pp 很有代表性:TraceLift 獎(jiǎng)勵(lì)的不是“更長(zhǎng)的解釋”,而是更能幫助 executor 正確跟蹤對(duì)象、關(guān)系和計(jì)算路徑的推理。
3. LoRA / Full-Parameter:收益不是單純來(lái)自更多參數(shù)
一個(gè)自然疑問(wèn)是:TraceLift 的提升是不是只是因?yàn)橛?xùn)練得更充分,或者參數(shù)預(yù)算更大?論文用 Qwen2.5-7B 比較了 LoRA 和 full-parameter GRPO。在相同參數(shù)化設(shè)置下,TraceLift 都比 Exec-only 更強(qiáng)。

full-parameter 訓(xùn)練確實(shí)能提高部分上限,但它不能替代更好的 reward。TraceLift 的關(guān)鍵不是“多訓(xùn)一點(diǎn)參數(shù)”,而是把 reward 對(duì)準(zhǔn)了更精細(xì)的目標(biāo):這段推理是否既可靠,又對(duì) executor 有用。
4. Reward 消融:只看最終正確不夠,只看推理質(zhì)量也不夠
TraceLift 的 reward 設(shè)計(jì)里有兩個(gè)關(guān)鍵軸:最終 verifier 成功,以及 uplift-weighted reasoning reward。論文在 Qwen2.5-7B code 上做了消融,結(jié)果很清楚。

No-uplift 去掉了 executor grounding,只保留 reasoning RM 的內(nèi)在質(zhì)量分?jǐn)?shù),結(jié)果甚至低于 Exec-only。說(shuō)明一段推理“看起來(lái)質(zhì)量高”,不代表 executor 真能用上。RM-uplift only 去掉最終 verifier anchor,也不如完整 TraceLift,說(shuō)明 uplift 不能替代最終任務(wù)成功。LLM-as-judge 替換也不理想,因?yàn)檎撐陌l(fā)現(xiàn) direct judge 分?jǐn)?shù)嚴(yán)重飽和:600 個(gè) logged samples 中有 573 個(gè)得分大于 0.95,飽和率 95.50%,平均 judge score 達(dá)到 0.990。這樣的信號(hào)在 GRPO group 內(nèi)幾乎無(wú)法區(qū)分哪條 trace 更好。
完整 TraceLift 同時(shí)保留三件事:最終任務(wù)成功、推理質(zhì)量、executor 實(shí)際收益。
我們到底測(cè)試了什么?
TraceLift 的實(shí)驗(yàn)覆蓋了多個(gè)模型、任務(wù)和訓(xùn)練設(shè)置,而不是單點(diǎn)結(jié)果。模型包括 Qwen2.5-7B、Llama3.1-8B、Qwen3-4B;任務(wù)包括代碼和數(shù)學(xué);代碼評(píng)測(cè)包括 HumanEval、HumanEval+、MBPP-full、LiveCodeBench;數(shù)學(xué)評(píng)測(cè)包括 GSM8K、GSM-Hard、SVAMP、MATH500;訓(xùn)練設(shè)置包括 GRPO planner optimization、LoRA GRPO、full-parameter GRPO;額外分析還覆蓋了 executor comparison 數(shù)量、reward component ablation、LLM-as-judge 替換、reasoning length 和 executor utility dynamics。
整體結(jié)論是:TraceLift 在固定 planner-executor 協(xié)議下穩(wěn)定優(yōu)于 execution-only training。它的收益不是來(lái)自更長(zhǎng)推理,也不是來(lái)自更強(qiáng) executor,而是來(lái)自更合理的訓(xùn)練信號(hào):推理軌跡必須既有質(zhì)量,又能提升 executor。
TraceLift 的定位:不是讓模型“多想”,而是讓推理更可執(zhí)行
很多 reasoning 方法容易把“更長(zhǎng)的 CoT”當(dāng)作能力提升的信號(hào)。但 TraceLift 的視角更接近工程系統(tǒng):推理軌跡是一個(gè)接口,接口的好壞不在于它寫(xiě)了多少,而在于它能不能把 executor 需要的信息交代清楚。 在代碼里,這些信息可能是算法選擇、邊界條件、復(fù)雜度約束、類(lèi)型處理和循環(huán)不變量。在數(shù)學(xué)里,它可能是變量定義、中間狀態(tài)、單位換算、條件保留和目標(biāo)對(duì)象跟蹤。TraceLift 獎(jiǎng)勵(lì)的是這些真正可被 executor 使用的內(nèi)容,而不是流暢但空泛的解釋。
所以 TraceLift 可以理解為一種 executor-grounded reasoning training:它不只訓(xùn)練模型“給出推理”,而是訓(xùn)練模型給出“對(duì)下游執(zhí)行真正有幫助的推理”。
哪些場(chǎng)景適合 TraceLift?
TraceLift 最適合 planner-executor 風(fēng)格的系統(tǒng):先由一個(gè)模型生成計(jì)劃、推理或中間軌跡,再由另一個(gè) frozen executor 生成最終答案、代碼或動(dòng)作。代碼生成是非常自然的場(chǎng)景,因?yàn)?planner 需要說(shuō)明算法、約束和邊界條件,executor 再負(fù)責(zé)實(shí)現(xiàn)。數(shù)學(xué)推理也很適合,因?yàn)橹虚g步驟是否可靠會(huì)直接影響最終答案。
它也適合那些不希望 reward 被“最終正確”騙過(guò)的場(chǎng)景。如果只看最終結(jié)果,模型可能學(xué)到 shortcut;如果只看 LLM judge,模型可能學(xué)到表面流暢的解釋。TraceLift 的優(yōu)勢(shì)在于把最終成功、推理質(zhì)量和 executor utility 放在同一個(gè)訓(xùn)練信號(hào)里。
總結(jié)
TraceLift 的核心觀點(diǎn)可以概括為一句話:
在 planner-executor 系統(tǒng)里,推理軌跡不只是解釋?zhuān)菚?huì)被下游模型消費(fèi)的中間產(chǎn)物。
因此,訓(xùn)練 reasoning planner 時(shí),不應(yīng)該只問(wèn)最終答案是否正確,也不應(yīng)該只問(wèn)推理看起來(lái)是否合理,而應(yīng)該進(jìn)一步問(wèn):這段推理有沒(méi)有真的幫到 executor?
最核心的結(jié)果包括:
Code:Qwen3-4B 上 code micro avg. 從 65.88 提升到 68.32
Math:Qwen2.5-7B 上 math micro avg. 從 64.72 提升到 69.23
LoRA / Full:同等參數(shù)化下,TraceLift 持續(xù)優(yōu)于 Exec-only
Reward 消融:No-uplift、RM-uplift only、LLM-as-judge 都弱于完整 TraceLift
Judge 分?jǐn)?shù)飽和:direct LLM judge 95.50% 樣本得分大于 0.95,難以作為有效 dense reward
TraceLift 給 reasoning training 提供了一個(gè)很清晰的新方向:不只是獎(jiǎng)勵(lì)“答對(duì)”,而是獎(jiǎng)勵(lì)那些真正能被后續(xù)執(zhí)行器用起來(lái)的推理過(guò)程。
參考文獻(xiàn)
[1] Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
原文標(biāo)題 : 別再被你家的AI騙了!D Lab社區(qū)最新方法TraceLift揭穿‘假推理’,模型思考過(guò)程真正靠譜
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專(zhuān)題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





