DeepSeek 開源了最新的實驗模型——V3.2-Exp。
V3.2-Exp 在 V3.1-Terminus 的基礎上引入了 DeepSeek 稀疏注意力機制——可以優化長上下文場景下訓練和推理的效率。
團隊對 Transformer 進行持續研究,特別注重提高處理擴展文本序列時的計算效率。
為了提高效率,DeepSeek 首次引入了稀疏注意力 (DSA),實現了細粒度稀疏注意力,在保持模型輸出質量的同時提高了長上下文訓練和推理效率。
為了評估 DSA 的影響,團隊特意將 DeepSeek-V3.2-Exp 的訓練配置與 V3.1-Terminus 進行了對齊。結果顯示,DeepSeek-V3.2-Exp 的表現與 V3.1-Terminus 相當。
DeepSeek 還披露了 V3.2-Exp 的技術報告,一起來看更多細節。
預訓練和后訓練
密集訓練階段
在此階段,模型保持密集注意力機制,并凍結除 lightning 索引器之外的所有模型參數。
總共訓練索引器 1000 步,每一步由 16 個 128K 個標記的序列組成,總共產生 21 億個token。
稀疏訓練階段
索引器預熱后,引入細粒度的 token 選擇機制,并優化所有模型參數,使模型適應 DSA 的稀疏模式。
值得注意的一點是,團隊將索引器的輸入從計算圖中分離出來,以便進行單獨優化。
專家訓練
后訓練也采用了與稀疏持續預訓練階段相同的稀疏注意力機制。為了更嚴格地評估引入 DSA 的影響,DeepSeek-V3.2-Exp 保留了與 DeepSeek-V3.1-Terminus 相同的后訓練流程、算法和數據。
每項任務首先會開發一個專門針對該特定領域的專用模型,所有專家模型均基于相同的預訓練 DeepSeek-V3.2 基礎檢查點進行微調。
除了寫作任務和常規問答之外,還涵蓋了五個專業領域:數學、競技編程、通用邏輯推理、代理編碼和代理搜索。
每個專用模型都經過大規模強化學習 (RL) 計算訓練,并采用不同的模型為長鏈思維推理和直接響應生成訓練數據。實驗結果表明,基于提煉數據訓練的模型的性能僅略低于特定領域的專家模型,并且性能差距可以通過后續的強化學習訓練有效消除。
混合強化學習訓練
DeepSeek-V3.2-Exp 仍然采用 GRPO 作為強化學習訓練算法。與之前使用多階段強化學習訓練的 DeepSeek 模型不同,V3.2-Exp 將推理、代理和人類對齊訓練合并到一個強化學習階段。這種方法有效地平衡了不同領域的性能,同時避免了多階段訓練范式中常見的災難性遺忘問題。
獎勵模式也分為兩種:代理任務采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵;一般任務采用生成式獎勵模型,其中每個提示都有各自的評估標準。獎勵設計平衡了兩個因素:
長度與準確性;
語言一致性與準確性。
能力評估
在模型能力的基準測試中,DeepSeek-V3.2-Exp 在長序列上的計算效率顯著提升。但與 DeepSeek-V3.1-Terminus 相比,無論是在短上下文任務還是長上下文任務中,我們均未觀察到性能顯著下降。
在 BrowseComp 和 SWE Verified 上,V3.2-Exp 和 V3.1-Terminus 模型的性能在整個訓練過程中均穩步提升,且曲線高度一致,這反映了 DSA 的訓練穩定性。
DSA 在長上下文場景中實現了顯著的端到端加速,與 DeepSeek-V3.1-Terminus 中的 MLA 相比,它所需的計算量要少得多。
DeepSeek 團隊人員表示,他們仍在積極地在現實世界場景中進行進一步的大規模測試,以揭示稀疏注意力架構的潛在局限性。
更多技術細節請參考報告: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf