后者的推理能力全面提升,可與 Gemini-3.0-Pro 相媲美。
值得注意的是,V3.2-Speciale 在 IMO、CMO、ICPC 世界總決賽和 IOI 2025 中取得金牌成績。
雖在處理復雜任務方面表現出色,但 V3.2-Speciale 需要更高的 tokens 使用量,目前僅提供 API 接口,以支持社區評估和研究。
技術突破
DeepSeek-V3.2 的方法基于三個關鍵技術突破:
DeepSeek 稀疏注意力(DSA):這是一種高效的注意力機制,可以顯著降低計算復雜性,同時保持了模型性能,特別針對長上下文場景進行了優化。
可擴展的強化學習框架:通過實施強大的 RL 協議并擴展后訓練計算,DeepSeek-V3.2 的表現與 GPT-5 相當,且高計算變體 DeepSeek-V3.2-Speciale 超越了 GPT-5,并在推理能力上與 Gemini-3.0-Pro 相當。
大規模代理任務合成管道:團隊開發了一種新穎的合成管道,系統地生成大規模訓練數據。這促進了可擴展的代理后訓練,提高了在復雜交互環境中的合規性和泛化能力。
DeepSeek-V3.2 使用的架構與 DeepSeek-V3.2-Exp.完全相同。與 DeepSeek-V3.1 的最后一個版本相比,DeepSeek-V3.2 唯一的架構修改是通過持續訓練引入 DeepSeek 稀疏注意力 (DSA)。
研究人員首先使用一個簡短的預熱階段來初始化閃電索引器。
索引器預熱后,引入細粒度的 token 選擇機制,并優化所有模型參數,使模型適應 DSA 的稀疏模式。
團隊使用一系列基準測試對 DeepSeek-V3.2-Exp 進行了評估,并將其與 DeepSeek-V3.1-Terminus 進行了比較。結果顯示,兩者性能相近。雖然 DeepSeek V3.2 Exp 顯著提高了長序列的計算效率,但在短上下文和長上下文任務中與 DeepSeek-V3.1-Terminus 的向能相差不大。
與DeepSeek-V3.1-Terminus.中的 MLA 相比,DSA 所需的計算量要少得多。
在訓練過程中,研究人員沿用了與 DeepSeek-V3.2-Exp 相同的后訓練流程,其中包括專家蒸餾和混合強化學習訓練。模型仍然采用組相對策略優化(GRPO)作為混合強化學習訓練算法。
結果與評估
結果顯示,DeepSeek-V3.2 在推理任務上與 GPT-5-high 的性能相近,但略遜于 Gemini-3.0-Pro。
與 K2-Thinking 相比,DeepSeek-V3.2 在輸出 tokens 數量顯著減少的情況下取得了相當的分數。這些性能提升可歸因于分配給強化學習 (RL) 訓練的計算資源增加。
研究人員觀察到模型性能持續提升,且與 RL 訓練預算的增加呈正相關,目前該預算已超過預訓練成本的 10%。通過增加計算預算分配,推理能力可以得到進一步增強。
值得注意的是,DeepSeek-V3.2 的性能受到長度約束獎勵模型的限制;移除該限制后,性能有進一步的提升。
在代碼代理評估中,DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 測試中均顯著優于開源 LLM,展現了其在實際編碼工作流程中的潛力。
在工具使用基準測試中,DeepSeek-V3.2 顯著縮小了開源和閉源 LLM 之間的性能差距,但仍低于前沿模型。
DeepSeek-V3.2-Speciale 在多個基準測試中超越了目前最先進的 Gemini-3.0-Pro 模型。
該模型在未進行專門訓練的情況下,DeepSeek-V3.2-Speciale 在 ICPC WF 2025 中排名第二,在 IOI 2025 中排名第十。
然而,DeepSeek-V3.2-Speciale 的 tokens 效率仍然明顯低于 Gemini-3.0-Pro。
在 Tau2Bench、MCP-Mark 和 MCP-Universe 基準測試中,DeepSeek-V3.2-SFT 的性能得到了提升。相比之下,將強化學習限制在編碼和搜索場景中并不能提高這些基準測試的性能,這進一步凸顯了合成數據的潛力。
相關人員表示,與 Gemini-3.0-Pro 等前沿閉源模型相比,DeepSeek-V3.2 仍然存在一些局限性。由于總訓練浮點運算量較少,DeepSeek-V3.2 的世界知識廣度仍然落后于領先的專有模型。團隊計劃在未來的迭代中通過擴展預訓練計算能力來解決這一知識差距。
tokens 效率仍然是一個挑戰;DeepSeek-V3.2 通常需要更長的生成軌跡才能達到 Gemini3.0-Pro 等模型的輸出質量。未來的工作將著重于優化模型推理鏈的智能密度以提高效率。
除此之外,解決復雜任務的能力仍然不如前沿模型,DeepSeek 團隊表示會進一步改進基礎模型和后訓練方案。
參考資料:
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2
HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale