DeepSeek 最新實驗模型 V3.2-Exp：首次引入稀疏注意力機制，推理更高效

當前位置： OFweek 人工智能網 > 其他 > 正文

2025-11-17 15:33

來源： OFweek人工智能網

DeepSeek 開源了最新的實驗模型——V3.2-Exp。

V3.2-Exp 在 V3.1-Terminus 的基礎上引入了 DeepSeek 稀疏注意力機制——可以優化長上下文場景下訓練和推理的效率。

團隊對 Transformer 進行持續研究，特別注重提高處理擴展文本序列時的計算效率。

為了提高效率，DeepSeek 首次引入了稀疏注意力 (DSA)，實現了細粒度稀疏注意力，在保持模型輸出質量的同時提高了長上下文訓練和推理效率。

為了評估 DSA 的影響，團隊特意將 DeepSeek-V3.2-Exp 的訓練配置與 V3.1-Terminus 進行了對齊。結果顯示，DeepSeek-V3.2-Exp 的表現與 V3.1-Terminus 相當。

DeepSeek 還披露了 V3.2-Exp 的技術報告，一起來看更多細節。

預訓練和后訓練

密集訓練階段

在此階段，模型保持密集注意力機制，并凍結除 lightning 索引器之外的所有模型參數。

總共訓練索引器 1000 步，每一步由 16 個 128K 個標記的序列組成，總共產生 21 億個token。

稀疏訓練階段

索引器預熱后，引入細粒度的 token 選擇機制，并優化所有模型參數，使模型適應 DSA 的稀疏模式。

值得注意的一點是，團隊將索引器的輸入從計算圖中分離出來，以便進行單獨優化。

專家訓練

后訓練也采用了與稀疏持續預訓練階段相同的稀疏注意力機制。為了更嚴格地評估引入 DSA 的影響，DeepSeek-V3.2-Exp 保留了與 DeepSeek-V3.1-Terminus 相同的后訓練流程、算法和數據。

每項任務首先會開發一個專門針對該特定領域的專用模型，所有專家模型均基于相同的預訓練 DeepSeek-V3.2 基礎檢查點進行微調。

除了寫作任務和常規問答之外，還涵蓋了五個專業領域：數學、競技編程、通用邏輯推理、代理編碼和代理搜索。

每個專用模型都經過大規模強化學習 (RL) 計算訓練，并采用不同的模型為長鏈思維推理和直接響應生成訓練數據。實驗結果表明，基于提煉數據訓練的模型的性能僅略低于特定領域的專家模型，并且性能差距可以通過后續的強化學習訓練有效消除。

混合強化學習訓練

DeepSeek-V3.2-Exp 仍然采用 GRPO 作為強化學習訓練算法。與之前使用多階段強化學習訓練的 DeepSeek 模型不同，V3.2-Exp 將推理、代理和人類對齊訓練合并到一個強化學習階段。這種方法有效地平衡了不同領域的性能，同時避免了多階段訓練范式中常見的災難性遺忘問題。

獎勵模式也分為兩種：代理任務采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵；一般任務采用生成式獎勵模型，其中每個提示都有各自的評估標準。獎勵設計平衡了兩個因素：

長度與準確性；
語言一致性與準確性。

能力評估

在模型能力的基準測試中，DeepSeek-V3.2-Exp 在長序列上的計算效率顯著提升。但與 DeepSeek-V3.1-Terminus 相比，無論是在短上下文任務還是長上下文任務中，我們均未觀察到性能顯著下降。

在 BrowseComp 和 SWE Verified 上，V3.2-Exp 和 V3.1-Terminus 模型的性能在整個訓練過程中均穩步提升，且曲線高度一致，這反映了 DSA 的訓練穩定性。

DSA 在長上下文場景中實現了顯著的端到端加速，與 DeepSeek-V3.1-Terminus 中的 MLA 相比，它所需的計算量要少得多。

DeepSeek 團隊人員表示，他們仍在積極地在現實世界場景中進行進一步的大規模測試，以揭示稀疏注意力架構的潛在局限性。

更多技術細節請參考報告： https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

推薦商品

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：