牛津大學最新論文：大模型如何編碼問題難易程度？

2025-11-07 18:32

大型語言模型（LLM）在復雜任務上可以展現卓越性能。然而，它們卻經常在看似簡單的問題上失敗。

近日，牛津大學的研究團隊發表了一篇論文，研究 LLM 是否編碼了一種與人類判斷相符的問題難度概念，并追蹤了這種表征在基于可驗證獎勵的強化學習（RLVR）數學推理過程中的演變。

團隊使用了 60 個模型訓練線性探針，并在 Easy2HardBench 的數學和編碼子集上評估了它們的難度估計性能。

研究表明，人類得出的難度評級可以從模型激活中強而線性地解碼，而 LLM 得出的難度評級則顯示出明顯較弱的編碼。

同時，將模型推向“更簡單”的表征可以減少輸出長度，并通過防止幻覺來提高準確性。

團隊還發現，在 GRPO 訓練過程中，人類難度表示隨著模型能力的增強而增強，而 LLM 難度表示則退化——隨著模型的改進，自動難度估計變得越來越不協調。

實驗結果

團隊使用可驗證獎勵強化學習 (RLVR) 來增強模型推理能力。它將強化學習融入到具有基于規則的結果獎勵的低階模型中，可以根據模型對數學問題最終答案的準確性給予二元獎勵。

他們使用 Easy2HardBench 中的兩個數學子集構建探測數據集，每個問題都有一個難度分數。

同時，團隊從 18 個模型家族的 60 個變體中提取激活值，包含 DeepSeek、Qwen-2.5等大模型，以檢驗增強的推理能力是否能帶來更好的難度表征。

結果表明：

團隊發現，人類難度表征在訓練過程中保持穩定或有所提升，相比之下，LLM 難度表征在早期層和中間層普遍退化，性能下降幅度高達 50%。這種層級范圍內的退化表明，LLM 難度表征是一個噪聲信號，GRPO 會系統性地覆蓋它。

但是，這也存在幾個局限性。團隊僅關注 E2H 中的編碼和數學任務，而忽略了其他三個子集。計算資源的限制使得模型無法在所有 E2H 子集上進行廣泛的實驗，也無法在更大的模型上進行 GRPO 訓練。

鑒于此因，研究人員將開展更廣泛的跨模型研究，這對于全面刻畫沿難度方向的轉向效應至關重要。

相關人員表示，未來的研究應該調查探測結果是否能推廣到 Codeforces 以外的其他需要編碼和推理的智能體任務，并探索難度表征在推理和多輪對話過程中是如何演變的。

參考資料：

https://arxiv.org/pdf/2510.18147

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞