大型語言模型(LLM)在復雜任務上可以展現卓越性能。然而,它們卻經常在看似簡單的問題上失敗。
近日,牛津大學的研究團隊發表了一篇論文,研究 LLM 是否編碼了一種與人類判斷相符的問題難度概念,并追蹤了這種表征在基于可驗證獎勵的強化學習(RLVR)數學推理過程中的演變。
團隊使用了 60 個模型訓練線性探針,并在 Easy2HardBench 的數學和編碼子集上評估了它們的難度估計性能。
研究表明,人類得出的難度評級可以從模型激活中強而線性地解碼,而 LLM 得出的難度評級則顯示出明顯較弱的編碼。
同時,將模型推向“更簡單”的表征可以減少輸出長度,并通過防止幻覺來提高準確性。
團隊還發現,在 GRPO 訓練過程中,人類難度表示隨著模型能力的增強而增強,而 LLM 難度表示則退化——隨著模型的改進,自動難度估計變得越來越不協調。
實驗結果
團隊使用可驗證獎勵強化學習 (RLVR) 來增強模型推理能力。它將強化學習融入到具有基于規則的結果獎勵的低階模型中,可以根據模型對數學問題最終答案的準確性給予二元獎勵。
他們使用 Easy2HardBench 中的兩個數學子集構建探測數據集,每個問題都有一個難度分數。
同時,團隊從 18 個模型家族的 60 個變體中提取激活值,包含 DeepSeek、Qwen-2.5等大模型,以檢驗增強的推理能力是否能帶來更好的難度表征。
結果表明:
人類難度在 LLM 激活中呈線性編碼。模型激活更好地編碼了人類對難度的評價,而非 LLM 推導出的難度估計。
難度表征隨模型大小而變化。更大的模型能更好地表征編碼難度。
最佳探測位置因任務而異。雖然最后一個標記位置通常在所有數據集上都能產生最優探針,但某些位置在特定模型中表現出色,這表明最后一個標記位置并非普遍最優。
線性探針可以引導模型進行更長的迭代,并誘導工具推理。
結論
團隊發現,人類難度表征在訓練過程中保持穩定或有所提升,相比之下,LLM 難度表征在早期層和中間層普遍退化,性能下降幅度高達 50%。這種層級范圍內的退化表明,LLM 難度表征是一個噪聲信號,GRPO 會系統性地覆蓋它。
但是,這也存在幾個局限性。團隊僅關注 E2H 中的編碼和數學任務,而忽略了其他三個子集。計算資源的限制使得模型無法在所有 E2H 子集上進行廣泛的實驗,也無法在更大的模型上進行 GRPO 訓練。
鑒于此因,研究人員將開展更廣泛的跨模型研究,這對于全面刻畫沿難度方向的轉向效應至關重要。
相關人員表示,未來的研究應該調查探測結果是否能推廣到 Codeforces 以外的其他需要編碼和推理的智能體任務,并探索難度表征在推理和多輪對話過程中是如何演變的。
參考資料:
https://arxiv.org/pdf/2510.18147