ExGRPO 框架：經驗驅動學習，引領推理新范式

2025-11-14 18:05

當人工智能模型仍以“刷題+打分”為主流訓練模式時，一支來自上海人工智能實驗室、澳門大學、南京大學與香港中文大學的研究團隊提出：訓練不僅是做題，更要復盤、溫習、內化。

他們近期發布了題為《ExGRPO: Learning to Reason from Experience》的論文，首次系統性地呈現出“經驗管理”如何在大模型推理訓練中發揮關鍵作用。

與傳統的在線策略RLVR（基于可驗證獎勵的強化學習）方法相比，ExGRPO在攻克復雜推理難題的能力方面有顯著提升。

下面，就讓我們一窺 ExGRPO 框架背后的邏輯、優勢與啟示。

為什么是“經驗驅動”

過去數年里，為了提升大型語言模型在數學推理、邏輯推理、復雜任務求解等方向的能力，研究領域普遍采用基于可驗證獎勵的強化學習（RLVR）方法。

但是，在 RLVR 模型訓練中，模型生成一個推理軌跡（roll-out），參與訓練、獲得獎勵后即被舍棄。

一方面，生成的軌跡往往代價昂貴。另一方面，這些“有用的軌跡”卻被一次性使用，隨后被丟棄——好比學生每做一道題后不復盤、不歸檔。

簡而言之，傳統訓練流程存在三大痛點：

也就是說：當“誰的數據更多”“誰訓練更久”逐漸成為瓶頸時，如何系統化地讓模型復盤、復用“關鍵經驗”便可能成為突破點。

該研究正是在這個背景下提出：并非所有經驗都值得溫習，關鍵在于「什么樣的經驗」以及怎樣的復習方式。

論文提出的 ExGRPO（Experiential Group Relative Policy Optimization）是一個用于推理訓練的大模型經驗管理與策略優化框架。

其核心在于兩個維度：

在 ExGRPO 中，其經驗管理由三步構成：

經驗收集：每次模型成功完成一道題目后，其軌跡被加入經驗回放池，有點類似錯題本
經驗劃分與存儲：根據模型的近期表現，每條經驗被動態貼上“簡單”“中等”“困難”標簽。與此同時，若模型在某道題上已連續多次成功，則將該題移出，避免模型在已掌握題目上刷題停滯
經驗篩選：根據“題目篩選”+“軌跡篩選“兩項先驗指標精選經驗

接下來，ExGRPO 采用了“混合策略”的訓練目標。在每輪訓練中，一部分 minibatch 用于探索全新的問題。另一部分用于從經驗池中抽取精選軌跡，反復學習。

此外，還引入“策略塑形”（Policy Shaping）機制，避免模型因為過度復習而變得保守、失去探索能力。