新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯(cuò)
加入自媒體

別再被你家的AI騙了!D Lab社區(qū)最新方法TraceLift揭穿‘假推理’,模型思考過(guò)程真正靠譜

作者: Tianyang Han等

解讀:AI生成未來(lái)

TraceLift:讓推理過(guò)程真正“幫得上忙”

正確答案不是終點(diǎn)。對(duì) planner-executor 系統(tǒng)來(lái)說(shuō),一段推理軌跡的價(jià)值取決于它能不能讓后續(xù)執(zhí)行器更容易做對(duì)。

從“答案對(duì)不對(duì)”到“推理有沒(méi)有用”

過(guò)去幾年,大模型推理能力的提升很大程度上依賴(lài)可驗(yàn)證反饋:數(shù)學(xué)題看最終答案,代碼題跑單測(cè),能通過(guò)就給獎(jiǎng)勵(lì)。這套邏輯簡(jiǎn)單、直接,也很有效。但當(dāng) reasoning trace 不再只是解釋?zhuān)菚?huì)被后續(xù)模型、工具或執(zhí)行器繼續(xù)消費(fèi)時(shí),問(wèn)題就變復(fù)雜了。

很多系統(tǒng)已經(jīng)不再是“一個(gè)模型直接給最終答案”,而是變成兩階段流程:planner 先寫(xiě)推理、計(jì)劃、約束或中間步驟,executor 再根據(jù)這些內(nèi)容生成最終代碼、答案或動(dòng)作。在這種情況下,最終結(jié)果正確只能說(shuō)明系統(tǒng)最后跑通了,卻不一定說(shuō)明 planner 寫(xiě)出的推理本身可靠。一個(gè) trace 可能看起來(lái)很流暢,也可能剛好導(dǎo)向了正確答案,但它未必真的包含 executor 需要的關(guān)鍵信息。

TraceLift 關(guān)注的就是這個(gè)更細(xì)的問(wèn)題:如何訓(xùn)練一個(gè) reasoning planner,讓它生成的推理不僅表面合理,而且真的能提升 frozen executor 的成功率。

TraceLift 的核心觀點(diǎn)

TraceLift 把 reasoning trace 看作一種“中間產(chǎn)物”,而不是普通解釋文本。這個(gè)中間產(chǎn)物的質(zhì)量不該只由最終答案決定,也不該只由 LLM judge 判斷是否寫(xiě)得像推理,而應(yīng)該看它對(duì)后續(xù) executor 的實(shí)際幫助。

它的訓(xùn)練框架可以概括為三部分:planner 生成 reasoning trace,frozen executor 消費(fèi) trace 并生成最終 artifact,verifier 判斷最終 artifact 是否正確。TraceLift 在這個(gè)基礎(chǔ)上額外引入一個(gè) Reasoning Reward Model,用來(lái)評(píng)估 trace 本身的推理質(zhì)量,并用 executor uplift 去衡量:同一個(gè) frozen executor 在“有這段 reasoning”和“沒(méi)有 reasoning”時(shí),成功率是否真的變高。 方法如下圖:

TraceLift framework overview

TraceLift framework overview

最終 reward 不是單一的 outcome reward,而是把三類(lèi)信號(hào)結(jié)合起來(lái):最終任務(wù)是否成功、推理軌跡本身是否高質(zhì)量、這段推理是否真的提升了 executor。這樣一來(lái),模型不會(huì)只因?yàn)?ldquo;答案碰巧對(duì)了”就得到高獎(jiǎng)勵(lì),也不會(huì)只因?yàn)?ldquo;推理寫(xiě)得很像樣”就被過(guò)度獎(jiǎng)勵(lì)。

TraceLift-Groups:專(zhuān)門(mén)學(xué)習(xí)“推理質(zhì)量”的數(shù)據(jù)

為了讓 Reasoning RM 學(xué)會(huì)區(qū)分推理質(zhì)量,TraceLift 構(gòu)造了 TraceLift-Groups。這個(gè)數(shù)據(jù)集不是簡(jiǎn)單收集題目和答案,而是圍繞同一個(gè)問(wèn)題構(gòu)造一組 reasoning traces:一條高質(zhì)量參考 trace,以及多條經(jīng)過(guò)局部擾動(dòng)的 flawed traces。這些 flawed traces 仍然和任務(wù)相關(guān),但會(huì)破壞關(guān)鍵推理支持。

數(shù)據(jù)來(lái)自?xún)蓚(gè)方向:GSM8K train 和 OpenCodeReasoning,總共構(gòu)造了 6,000 個(gè) reasoning groups。代碼任務(wù)中的擾動(dòng)包括錯(cuò)誤算法、遺漏邊界情況、off-by-one reasoning、不正確不變量、不可行復(fù)雜度、空泛偽解等;數(shù)學(xué)任務(wù)中的擾動(dòng)包括算術(shù)錯(cuò)誤、錯(cuò)誤操作、遺漏條件、單位不匹配、無(wú)支撐跳步、過(guò)早給答案等。 這個(gè)設(shè)計(jì)的重點(diǎn)是:讓 RM 學(xué)到“同一個(gè)問(wèn)題下,哪條推理更可靠、更能支撐后續(xù)執(zhí)行”,而不是簡(jiǎn)單學(xué)習(xí)“最終答案是否正確”。

代表結(jié)果:TraceLift 到底提升在哪?

下面只放幾組最能說(shuō)明問(wèn)題的結(jié)果,不鋪滿所有表格。

1. Code:planner 寫(xiě)得更好,executor 真的更容易過(guò)測(cè)試

在代碼任務(wù)中,TraceLift 使用固定 planner-executor 協(xié)議:planner 先生成 reasoning,frozen executor 再根據(jù) reasoning 寫(xiě)代碼,最后用測(cè)試判斷代碼是否正確。也就是說(shuō),評(píng)測(cè)時(shí) executor 不變,變化的是 planner 產(chǎn)生的中間推理。

在 Qwen3-4B 上,TraceLift 相比 Exec-only 在所有代碼 benchmark 上都有提升。

這組結(jié)果說(shuō)明,TraceLift 不是讓 executor 變強(qiáng),而是讓 planner 生成了更適合 executor 消費(fèi)的推理。對(duì)代碼任務(wù)來(lái)說(shuō),這通常意味著更清楚的算法路線、更完整的邊界條件、更明確的數(shù)據(jù)結(jié)構(gòu)和實(shí)現(xiàn)約束。

2. Math:推理軌跡越關(guān)鍵,TraceLift 越有價(jià)值

數(shù)學(xué)任務(wù)更依賴(lài)中間步驟是否真的支撐最終答案。變量定義、單位、運(yùn)算順序、條件保留、中間量跟蹤,任何一處出錯(cuò)都可能讓后續(xù) executor 被帶偏。 在 Qwen2.5-7B 上,TraceLift 在數(shù)學(xué) benchmark 上的收益非常明顯。

尤其是 SVAMP 上的 +21.00 pp 很有代表性:TraceLift 獎(jiǎng)勵(lì)的不是“更長(zhǎng)的解釋”,而是更能幫助 executor 正確跟蹤對(duì)象、關(guān)系和計(jì)算路徑的推理。

3. LoRA / Full-Parameter:收益不是單純來(lái)自更多參數(shù)

一個(gè)自然疑問(wèn)是:TraceLift 的提升是不是只是因?yàn)橛?xùn)練得更充分,或者參數(shù)預(yù)算更大?論文用 Qwen2.5-7B 比較了 LoRA 和 full-parameter GRPO。在相同參數(shù)化設(shè)置下,TraceLift 都比 Exec-only 更強(qiáng)。

full-parameter 訓(xùn)練確實(shí)能提高部分上限,但它不能替代更好的 reward。TraceLift 的關(guān)鍵不是“多訓(xùn)一點(diǎn)參數(shù)”,而是把 reward 對(duì)準(zhǔn)了更精細(xì)的目標(biāo):這段推理是否既可靠,又對(duì) executor 有用。

4. Reward 消融:只看最終正確不夠,只看推理質(zhì)量也不夠

TraceLift 的 reward 設(shè)計(jì)里有兩個(gè)關(guān)鍵軸:最終 verifier 成功,以及 uplift-weighted reasoning reward。論文在 Qwen2.5-7B code 上做了消融,結(jié)果很清楚。

No-uplift 去掉了 executor grounding,只保留 reasoning RM 的內(nèi)在質(zhì)量分?jǐn)?shù),結(jié)果甚至低于 Exec-only。說(shuō)明一段推理“看起來(lái)質(zhì)量高”,不代表 executor 真能用上。RM-uplift only 去掉最終 verifier anchor,也不如完整 TraceLift,說(shuō)明 uplift 不能替代最終任務(wù)成功。LLM-as-judge 替換也不理想,因?yàn)檎撐陌l(fā)現(xiàn) direct judge 分?jǐn)?shù)嚴(yán)重飽和:600 個(gè) logged samples 中有 573 個(gè)得分大于 0.95,飽和率 95.50%,平均 judge score 達(dá)到 0.990。這樣的信號(hào)在 GRPO group 內(nèi)幾乎無(wú)法區(qū)分哪條 trace 更好。

完整 TraceLift 同時(shí)保留三件事:最終任務(wù)成功、推理質(zhì)量、executor 實(shí)際收益。

我們到底測(cè)試了什么?

TraceLift 的實(shí)驗(yàn)覆蓋了多個(gè)模型、任務(wù)和訓(xùn)練設(shè)置,而不是單點(diǎn)結(jié)果。模型包括 Qwen2.5-7B、Llama3.1-8B、Qwen3-4B;任務(wù)包括代碼和數(shù)學(xué);代碼評(píng)測(cè)包括 HumanEval、HumanEval+、MBPP-full、LiveCodeBench;數(shù)學(xué)評(píng)測(cè)包括 GSM8K、GSM-Hard、SVAMP、MATH500;訓(xùn)練設(shè)置包括 GRPO planner optimization、LoRA GRPO、full-parameter GRPO;額外分析還覆蓋了 executor comparison 數(shù)量、reward component ablation、LLM-as-judge 替換、reasoning length 和 executor utility dynamics。

整體結(jié)論是:TraceLift 在固定 planner-executor 協(xié)議下穩(wěn)定優(yōu)于 execution-only training。它的收益不是來(lái)自更長(zhǎng)推理,也不是來(lái)自更強(qiáng) executor,而是來(lái)自更合理的訓(xùn)練信號(hào):推理軌跡必須既有質(zhì)量,又能提升 executor。

TraceLift 的定位:不是讓模型“多想”,而是讓推理更可執(zhí)行

很多 reasoning 方法容易把“更長(zhǎng)的 CoT”當(dāng)作能力提升的信號(hào)。但 TraceLift 的視角更接近工程系統(tǒng):推理軌跡是一個(gè)接口,接口的好壞不在于它寫(xiě)了多少,而在于它能不能把 executor 需要的信息交代清楚。 在代碼里,這些信息可能是算法選擇、邊界條件、復(fù)雜度約束、類(lèi)型處理和循環(huán)不變量。在數(shù)學(xué)里,它可能是變量定義、中間狀態(tài)、單位換算、條件保留和目標(biāo)對(duì)象跟蹤。TraceLift 獎(jiǎng)勵(lì)的是這些真正可被 executor 使用的內(nèi)容,而不是流暢但空泛的解釋。

所以 TraceLift 可以理解為一種 executor-grounded reasoning training:它不只訓(xùn)練模型“給出推理”,而是訓(xùn)練模型給出“對(duì)下游執(zhí)行真正有幫助的推理”。

哪些場(chǎng)景適合 TraceLift?

TraceLift 最適合 planner-executor 風(fēng)格的系統(tǒng):先由一個(gè)模型生成計(jì)劃、推理或中間軌跡,再由另一個(gè) frozen executor 生成最終答案、代碼或動(dòng)作。代碼生成是非常自然的場(chǎng)景,因?yàn)?planner 需要說(shuō)明算法、約束和邊界條件,executor 再負(fù)責(zé)實(shí)現(xiàn)。數(shù)學(xué)推理也很適合,因?yàn)橹虚g步驟是否可靠會(huì)直接影響最終答案。

它也適合那些不希望 reward 被“最終正確”騙過(guò)的場(chǎng)景。如果只看最終結(jié)果,模型可能學(xué)到 shortcut;如果只看 LLM judge,模型可能學(xué)到表面流暢的解釋。TraceLift 的優(yōu)勢(shì)在于把最終成功、推理質(zhì)量和 executor utility 放在同一個(gè)訓(xùn)練信號(hào)里。

總結(jié)

TraceLift 的核心觀點(diǎn)可以概括為一句話:

在 planner-executor 系統(tǒng)里,推理軌跡不只是解釋?zhuān)菚?huì)被下游模型消費(fèi)的中間產(chǎn)物。

因此,訓(xùn)練 reasoning planner 時(shí),不應(yīng)該只問(wèn)最終答案是否正確,也不應(yīng)該只問(wèn)推理看起來(lái)是否合理,而應(yīng)該進(jìn)一步問(wèn):這段推理有沒(méi)有真的幫到 executor?

最核心的結(jié)果包括:

Code:Qwen3-4B 上 code micro avg. 從 65.88 提升到 68.32

Math:Qwen2.5-7B 上 math micro avg. 從 64.72 提升到 69.23

LoRA / Full:同等參數(shù)化下,TraceLift 持續(xù)優(yōu)于 Exec-only

Reward 消融:No-uplift、RM-uplift only、LLM-as-judge 都弱于完整 TraceLift

Judge 分?jǐn)?shù)飽和:direct LLM judge 95.50% 樣本得分大于 0.95,難以作為有效 dense reward

TraceLift 給 reasoning training 提供了一個(gè)很清晰的新方向:不只是獎(jiǎng)勵(lì)“答對(duì)”,而是獎(jiǎng)勵(lì)那些真正能被后續(xù)執(zhí)行器用起來(lái)的推理過(guò)程。

參考文獻(xiàn)

[1] Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

       原文標(biāo)題 : 別再被你家的AI騙了!D Lab社區(qū)最新方法TraceLift揭穿‘假推理’,模型思考過(guò)程真正靠譜

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)