別再被你家的AI騙了！D Lab社區(qū)最新方法TraceLift揭穿‘假推理’,模型思考過(guò)程真正靠譜

2026-05-18 15:44

AI生成未來(lái)

關(guān)注

作者： Tianyang Han等

解讀：AI生成未來(lái)

TraceLift：讓推理過(guò)程真正“幫得上忙”

正確答案不是終點(diǎn)。對(duì) planner-executor 系統(tǒng)來(lái)說(shuō)，一段推理軌跡的價(jià)值取決于它能不能讓后續(xù)執(zhí)行器更容易做對(duì)。

從“答案對(duì)不對(duì)”到“推理有沒(méi)有用”

過(guò)去幾年，大模型推理能力的提升很大程度上依賴(lài)可驗(yàn)證反饋：數(shù)學(xué)題看最終答案，代碼題跑單測(cè)，能通過(guò)就給獎(jiǎng)勵(lì)。這套邏輯簡(jiǎn)單、直接，也很有效。但當(dāng) reasoning trace 不再只是解釋?zhuān)菚?huì)被后續(xù)模型、工具或執(zhí)行器繼續(xù)消費(fèi)時(shí)，問(wèn)題就變復(fù)雜了。

很多系統(tǒng)已經(jīng)不再是“一個(gè)模型直接給最終答案”，而是變成兩階段流程：planner 先寫(xiě)推理、計(jì)劃、約束或中間步驟，executor 再根據(jù)這些內(nèi)容生成最終代碼、答案或動(dòng)作。在這種情況下，最終結(jié)果正確只能說(shuō)明系統(tǒng)最后跑通了，卻不一定說(shuō)明 planner 寫(xiě)出的推理本身可靠。一個(gè) trace 可能看起來(lái)很流暢，也可能剛好導(dǎo)向了正確答案，但它未必真的包含 executor 需要的關(guān)鍵信息。

TraceLift 關(guān)注的就是這個(gè)更細(xì)的問(wèn)題：如何訓(xùn)練一個(gè) reasoning planner，讓它生成的推理不僅表面合理，而且真的能提升 frozen executor 的成功率。

TraceLift 的核心觀點(diǎn)

TraceLift 把 reasoning trace 看作一種“中間產(chǎn)物”，而不是普通解釋文本。這個(gè)中間產(chǎn)物的質(zhì)量不該只由最終答案決定，也不該只由 LLM judge 判斷是否寫(xiě)得像推理，而應(yīng)該看它對(duì)后續(xù) executor 的實(shí)際幫助。

它的訓(xùn)練框架可以概括為三部分：planner 生成 reasoning trace，frozen executor 消費(fèi) trace 并生成最終 artifact，verifier 判斷最終 artifact 是否正確。TraceLift 在這個(gè)基礎(chǔ)上額外引入一個(gè) Reasoning Reward Model，用來(lái)評(píng)估 trace 本身的推理質(zhì)量，并用 executor uplift 去衡量：同一個(gè) frozen executor 在“有這段 reasoning”和“沒(méi)有 reasoning”時(shí)，成功率是否真的變高。方法如下圖：

TraceLift framework overview

最終 reward 不是單一的 outcome reward，而是把三類(lèi)信號(hào)結(jié)合起來(lái)：最終任務(wù)是否成功、推理軌跡本身是否高質(zhì)量、這段推理是否真的提升了 executor。這樣一來(lái)，模型不會(huì)只因?yàn)?ldquo;答案碰巧對(duì)了”就得到高獎(jiǎng)勵(lì)，也不會(huì)只因?yàn)?ldquo;推理寫(xiě)得很像樣”就被過(guò)度獎(jiǎng)勵(lì)。

TraceLift-Groups：專(zhuān)門(mén)學(xué)習(xí)“推理質(zhì)量”的數(shù)據(jù)

為了讓 Reasoning RM 學(xué)會(huì)區(qū)分推理質(zhì)量，TraceLift 構(gòu)造了 TraceLift-Groups。這個(gè)數(shù)據(jù)集不是簡(jiǎn)單收集題目和答案，而是圍繞同一個(gè)問(wèn)題構(gòu)造一組 reasoning traces：一條高質(zhì)量參考 trace，以及多條經(jīng)過(guò)局部擾動(dòng)的 flawed traces。這些 flawed traces 仍然和任務(wù)相關(guān)，但會(huì)破壞關(guān)鍵推理支持。

數(shù)據(jù)來(lái)自?xún)蓚€(gè)方向：GSM8K train 和 OpenCodeReasoning，總共構(gòu)造了 6,000 個(gè) reasoning groups。代碼任務(wù)中的擾動(dòng)包括錯(cuò)誤算法、遺漏邊界情況、off-by-one reasoning、不正確不變量、不可行復(fù)雜度、空泛偽解等；數(shù)學(xué)任務(wù)中的擾動(dòng)包括算術(shù)錯(cuò)誤、錯(cuò)誤操作、遺漏條件、單位不匹配、無(wú)支撐跳步、過(guò)早給答案等。這個(gè)設(shè)計(jì)的重點(diǎn)是：讓 RM 學(xué)到“同一個(gè)問(wèn)題下，哪條推理更可靠、更能支撐后續(xù)執(zhí)行”，而不是簡(jiǎn)單學(xué)習(xí)“最終答案是否正確”。

代表結(jié)果：TraceLift 到底提升在哪？

下面只放幾組最能說(shuō)明問(wèn)題的結(jié)果，不鋪滿所有表格。

1. Code：planner 寫(xiě)得更好，executor 真的更容易過(guò)測(cè)試

在代碼任務(wù)中，TraceLift 使用固定 planner-executor 協(xié)議：planner 先生成 reasoning，frozen executor 再根據(jù) reasoning 寫(xiě)代碼，最后用測(cè)試判斷代碼是否正確。也就是說(shuō)，評(píng)測(cè)時(shí) executor 不變，變化的是 planner 產(chǎn)生的中間推理。

在 Qwen3-4B 上，TraceLift 相比 Exec-only 在所有代碼 benchmark 上都有提升。

這組結(jié)果說(shuō)明，TraceLift 不是讓 executor 變強(qiáng)，而是讓 planner 生成了更適合 executor 消費(fèi)的推理。對(duì)代碼任務(wù)來(lái)說(shuō)，這通常意味著更清楚的算法路線、更完整的邊界條件、更明確的數(shù)據(jù)結(jié)構(gòu)和實(shí)現(xiàn)約束。

2. Math：推理軌跡越關(guān)鍵，TraceLift 越有價(jià)值

數(shù)學(xué)任務(wù)更依賴(lài)中間步驟是否真的支撐最終答案。變量定義、單位、運(yùn)算順序、條件保留、中間量跟蹤，任何一處出錯(cuò)都可能讓后續(xù) executor 被帶偏。在 Qwen2.5-7B 上，TraceLift 在數(shù)學(xué) benchmark 上的收益非常明顯。

尤其是 SVAMP 上的 +21.00 pp 很有代表性：TraceLift 獎(jiǎng)勵(lì)的不是“更長(zhǎng)的解釋”，而是更能幫助 executor 正確跟蹤對(duì)象、關(guān)系和計(jì)算路徑的推理。

3. LoRA / Full-Parameter：收益不是單純來(lái)自更多參數(shù)

一個(gè)自然疑問(wèn)是：TraceLift 的提升是不是只是因?yàn)橛?xùn)練得更充分，或者參數(shù)預(yù)算更大？論文用 Qwen2.5-7B 比較了 LoRA 和 full-parameter GRPO。在相同參數(shù)化設(shè)置下，TraceLift 都比 Exec-only 更強(qiáng)。

full-parameter 訓(xùn)練確實(shí)能提高部分上限，但它不能替代更好的 reward。TraceLift 的關(guān)鍵不是“多訓(xùn)一點(diǎn)參數(shù)”，而是把 reward 對(duì)準(zhǔn)了更精細(xì)的目標(biāo)：這段推理是否既可靠，又對(duì) executor 有用。

4. Reward 消融：只看最終正確不夠，只看推理質(zhì)量也不夠

TraceLift 的 reward 設(shè)計(jì)里有兩個(gè)關(guān)鍵軸：最終 verifier 成功，以及 uplift-weighted reasoning reward。論文在 Qwen2.5-7B code 上做了消融，結(jié)果很清楚。

No-uplift 去掉了 executor grounding，只保留 reasoning RM 的內(nèi)在質(zhì)量分?jǐn)?shù)，結(jié)果甚至低于 Exec-only。說(shuō)明一段推理“看起來(lái)質(zhì)量高”，不代表 executor 真能用上。RM-uplift only 去掉最終 verifier anchor，也不如完整 TraceLift，說(shuō)明 uplift 不能替代最終任務(wù)成功。LLM-as-judge 替換也不理想，因?yàn)檎撐陌l(fā)現(xiàn) direct judge 分?jǐn)?shù)嚴(yán)重飽和：600 個(gè) logged samples 中有 573 個(gè)得分大于 0.95，飽和率 95.50%，平均 judge score 達(dá)到 0.990。這樣的信號(hào)在 GRPO group 內(nèi)幾乎無(wú)法區(qū)分哪條 trace 更好。

完整 TraceLift 同時(shí)保留三件事：最終任務(wù)成功、推理質(zhì)量、executor 實(shí)際收益。

我們到底測(cè)試了什么？

TraceLift 的實(shí)驗(yàn)覆蓋了多個(gè)模型、任務(wù)和訓(xùn)練設(shè)置，而不是單點(diǎn)結(jié)果。模型包括 Qwen2.5-7B、Llama3.1-8B、Qwen3-4B；任務(wù)包括代碼和數(shù)學(xué)；代碼評(píng)測(cè)包括 HumanEval、HumanEval+、MBPP-full、LiveCodeBench；數(shù)學(xué)評(píng)測(cè)包括 GSM8K、GSM-Hard、SVAMP、MATH500；訓(xùn)練設(shè)置包括 GRPO planner optimization、LoRA GRPO、full-parameter GRPO；額外分析還覆蓋了 executor comparison 數(shù)量、reward component ablation、LLM-as-judge 替換、reasoning length 和 executor utility dynamics。

整體結(jié)論是：TraceLift 在固定 planner-executor 協(xié)議下穩(wěn)定優(yōu)于 execution-only training。它的收益不是來(lái)自更長(zhǎng)推理，也不是來(lái)自更強(qiáng) executor,而是來(lái)自更合理的訓(xùn)練信號(hào)：推理軌跡必須既有質(zhì)量，又能提升 executor。

TraceLift 的定位：不是讓模型“多想”，而是讓推理更可執(zhí)行

很多 reasoning 方法容易把“更長(zhǎng)的 CoT”當(dāng)作能力提升的信號(hào)。但 TraceLift 的視角更接近工程系統(tǒng)：推理軌跡是一個(gè)接口，接口的好壞不在于它寫(xiě)了多少，而在于它能不能把 executor 需要的信息交代清楚。在代碼里，這些信息可能是算法選擇、邊界條件、復(fù)雜度約束、類(lèi)型處理和循環(huán)不變量。在數(shù)學(xué)里，它可能是變量定義、中間狀態(tài)、單位換算、條件保留和目標(biāo)對(duì)象跟蹤。TraceLift 獎(jiǎng)勵(lì)的是這些真正可被 executor 使用的內(nèi)容，而不是流暢但空泛的解釋。

所以 TraceLift 可以理解為一種 executor-grounded reasoning training：它不只訓(xùn)練模型“給出推理”，而是訓(xùn)練模型給出“對(duì)下游執(zhí)行真正有幫助的推理”。

哪些場(chǎng)景適合 TraceLift？

TraceLift 最適合 planner-executor 風(fēng)格的系統(tǒng)：先由一個(gè)模型生成計(jì)劃、推理或中間軌跡，再由另一個(gè) frozen executor 生成最終答案、代碼或動(dòng)作。代碼生成是非常自然的場(chǎng)景，因?yàn)?planner 需要說(shuō)明算法、約束和邊界條件，executor 再負(fù)責(zé)實(shí)現(xiàn)。數(shù)學(xué)推理也很適合，因?yàn)橹虚g步驟是否可靠會(huì)直接影響最終答案。

它也適合那些不希望 reward 被“最終正確”騙過(guò)的場(chǎng)景。如果只看最終結(jié)果，模型可能學(xué)到 shortcut；如果只看 LLM judge，模型可能學(xué)到表面流暢的解釋。TraceLift 的優(yōu)勢(shì)在于把最終成功、推理質(zhì)量和 executor utility 放在同一個(gè)訓(xùn)練信號(hào)里。

總結(jié)

TraceLift 的核心觀點(diǎn)可以概括為一句話：

在 planner-executor 系統(tǒng)里，推理軌跡不只是解釋?zhuān)菚?huì)被下游模型消費(fèi)的中間產(chǎn)物。

因此，訓(xùn)練 reasoning planner 時(shí)，不應(yīng)該只問(wèn)最終答案是否正確，也不應(yīng)該只問(wèn)推理看起來(lái)是否合理，而應(yīng)該進(jìn)一步問(wèn)：這段推理有沒(méi)有真的幫到 executor？

最核心的結(jié)果包括：

Code：Qwen3-4B 上 code micro avg. 從 65.88 提升到 68.32

Math：Qwen2.5-7B 上 math micro avg. 從 64.72 提升到 69.23

LoRA / Full：同等參數(shù)化下，TraceLift 持續(xù)優(yōu)于 Exec-only

Reward 消融：No-uplift、RM-uplift only、LLM-as-judge 都弱于完整 TraceLift

Judge 分?jǐn)?shù)飽和：direct LLM judge 95.50% 樣本得分大于 0.95，難以作為有效 dense reward

TraceLift 給 reasoning training 提供了一個(gè)很清晰的新方向：不只是獎(jiǎng)勵(lì)“答對(duì)”，而是獎(jiǎng)勵(lì)那些真正能被后續(xù)執(zhí)行器用起來(lái)的推理過(guò)程。

參考文獻(xiàn)