近日,DeepSeek 悄悄更新了 R1 的技術論文,新增了整整 64頁!
通過對比 DeepSeek-R1 論文的兩個版本,可以發現新版論文不僅補充了若干附錄,還對正文進行了大幅修訂與擴充,信息量顯著增加。
在回顧去年一月發布的初版論文時,其核心聚焦于 DeepSeek-R1-Zero,旨在論證純強化學習路徑的可行性。而新版本則在此基礎上,進一步豐富了具體實現細節的闡述。
公布完整訓練路徑
論文系統性地展開了 R1 模型的完整訓練路徑,該過程主要分為四個階段:
第一階段為冷啟動,使用數千條包含思維鏈的示例數據對模型進行監督微調。
第二階段為推理導向的強化學習,在保持模型推理風格的同時提升其能力,并通過引入語言一致性獎勵來解決響應中語言混用的問題。
第三階段結合拒絕采樣與再微調,同步加入推理數據與通用數據,以平衡模型的推理能力與文本生成質量。
第四階段為對齊導向的強化學習,專注于提升模型的有用性與安全性,使其行為更符合人類偏好。
整體而言,論文對訓練流程的披露頗為詳盡,包括冷啟動數據的構建、各階段強化學習的具體設計、獎勵模型的配置等,提供了清晰的技術實現參考。
論文也對 R1-Zero 部分進行了補充,特別是針對模型訓練中出現的“反思”涌現現象進行了進一步分析。研究通過人工篩選出一批具有反思特征的詞匯,并統計其在訓練過程中出現頻率的變化。結果顯示,隨著訓練進行,這類詞匯的出現頻率較訓練初期上升約5至7倍,且不同反思詞匯在不同訓練階段呈現出差異化的出現模式。
增加評估細節
在安全性方面,鑒于開源模型若未經過充分安全對齊易被誤用,論文此次詳細披露了相關的訓練與評估細節。
團隊構建了一個包含 10.6 萬條提示的數據集,并依據明確的安全準則對模型回復進行標注。
安全獎勵模型采用點式訓練方法,以區分安全與不安全的回答,其訓練超參數與有用性獎勵模型保持一致。
風險控制系統方面,DeepSeek-R1 通過向 DeepSeek-V3 發送審查提示來實現,主要包括兩個流程:
對用戶輸入進行關鍵詞過濾,識別潛在風險對話;
將識別出的對話與預設的安全審查提示組合,交由 DeepSeek-V3 進行最終判定,決定是否攔截。
評估表明,引入風險控制系統后,模型的安全性得到顯著提升。在多項基準測試中,R1 的表現與前沿模型水平相當,僅在 HarmBench 的特定子集上表現有所不足。
團隊也構建了內部安全評測數據集,涵蓋 4 大類共 28 個子類,并采用基于大模型的自動評判方法進行安全性評估。
除技術內容外,論文作者名單也反映出團隊的穩定性。在論文發布近一年后,其 18 位核心貢獻者仍全部在職,百余名作者中僅 5 位標注為已離隊。
值得注意的是,與去年版本相比,有一位此前離隊的作者現已回歸。在人工智能領域人才競爭激烈的背景下,該團隊保持了較高的成員留任率。
從發布時機來看,這篇長達 64 頁的補充材料在論文即將滿一周年時釋出,系統性地完善了技術細節,顯著提升了研究工作的可復現性,也為 R1 的相關工作提供了一個階段性的總結。
參考資料:
https://arxiv.org/pdf/2501.12948
·