當人工智能模型仍以“刷題+打分”為主流訓練模式時,一支來自上海人工智能實驗室、澳門大學、南京大學與香港中文大學的研究團隊提出:訓練不僅是做題,更要復盤、溫習、內化。
他們近期發布了題為《ExGRPO: Learning to Reason from Experience》的論文,首次系統性地呈現出“經驗管理”如何在大模型推理訓練中發揮關鍵作用。
與傳統的在線策略RLVR(基于可驗證獎勵的強化學習)方法相比,ExGRPO在攻克復雜推理難題的能力方面有顯著提升。
下面,就讓我們一窺 ExGRPO 框架背后的邏輯、優勢與啟示。
為什么是“經驗驅動”
過去數年里,為了提升大型語言模型在數學推理、邏輯推理、復雜任務求解等方向的能力,研究領域普遍采用基于可驗證獎勵的強化學習(RLVR)方法。
但是,在 RLVR 模型訓練中,模型生成一個推理軌跡(roll-out),參與訓練、獲得獎勵后即被舍棄。
一方面,生成的軌跡往往代價昂貴。另一方面,這些“有用的軌跡”卻被一次性使用,隨后被丟棄——好比學生每做一道題后不復盤、不歸檔。
簡而言之,傳統訓練流程存在三大痛點:
經驗浪費 —— 成功的推理軌跡往往被遺忘
效率低下 —— 刷題而不復習,推動能力提升緩慢
訓練不穩定 —— 模型可能走入“做題卻不理解”的狀態
也就是說:當“誰的數據更多”“誰訓練更久”逐漸成為瓶頸時,如何系統化地讓模型復盤、復用“關鍵經驗”便可能成為突破點。
該研究正是在這個背景下提出:并非所有經驗都值得溫習,關鍵在于「什么樣的經驗」以及怎樣的復習方式。
經驗管理+混合策略優化
論文提出的 ExGRPO(Experiential Group Relative Policy Optimization)是一個用于推理訓練的大模型經驗管理與策略優化框架。
其核心在于兩個維度:
經驗管理:即識別、存儲、篩選優質經驗
混合經驗優化:將精選經驗與新題探索結合起來訓練
在 ExGRPO 中,其經驗管理由三步構成:
經驗收集:每次模型成功完成一道題目后,其軌跡被加入經驗回放池,有點類似錯題本
經驗劃分與存儲:根據模型的近期表現,每條經驗被動態貼上“簡單”“中等”“困難”標簽。與此同時,若模型在某道題上已連續多次成功,則將該題移出,避免模型在已掌握題目上刷題停滯
經驗篩選:根據“題目篩選”+“軌跡篩選“兩項先驗指標精選經驗
接下來,ExGRPO 采用了“混合策略”的訓練目標。在每輪訓練中,一部分 minibatch 用于探索全新的問題。另一部分用于從經驗池中抽取精選軌跡,反復學習。
此外,還引入“策略塑形”(Policy Shaping)機制,避免模型因為過度復習而變得保守、失去探索能力。
實驗結果和行業啟示
在 1.5B-8B 參數規模、不同模型架構(如 Qwen、Llama)上,ExGRPO 相比傳統 On-policy RL 方法平均提升約 +3.5(分布內任務)至 +7.6(分布外任務)個百分點。
不僅如此,整體訓練的穩定性與效率也有所提升。
同時,ExGRPO 也面臨三大挑戰。
第一,在更大規模、更多任務類型的場景下,經驗識別是否依然精確?
第二,建立、維護經驗池、劃分分區、篩選軌跡,都需要額外計算資源與工程支持,管理成本堪憂。
第三,論文主要在數學與通用推理基準上測試。未來在語言生成、對話、跨模態任務中,這一經驗復用機制能否同樣奏效仍待觀察。
但對模型訓練體系而言,ExGRPO 提供了一個可借鑒的“錯題本式”思路:不僅做題,更復盤;不僅刷題,更優化經驗。
對開發者而言,可以考慮在實際模型訓練中引入類似經驗篩選機制——將模型成功軌跡歸檔、標注、復用,而不是簡單丟棄。
對產業應用而言,當模型需要長期服務、持續學習、快速迭代時,經驗機制尤為關鍵。它意味著模型不僅“會做”,還知道怎么做得更好。
對未來研究而言,經驗分區、軌跡篩選、復用機制是一個值得深入的方向。未來還有可能與自動化經驗選擇、元學習、持續在線學習等方向融合。
參考資料:https://arxiv.org/pdf/2510.02245