新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<abbr id="5sz0m"><i id="5sz0m"><tbody id="5sz0m"></tbody></i></abbr>

<ruby id="5sz0m"><table id="5sz0m"></table></ruby>

<ruby id="5sz0m"></ruby>

<ruby id="5sz0m"></ruby>

當前位置： OFweek 人工智能網 > 其他 > 正文

DeepSeek 一口氣上新兩款模型：性能直逼 Gemini-3.0-Pro

2025-12-04 17:55

來源： OFweek人工智能網

剛剛，DeepSeek 一口氣推出兩個新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

前者專注平衡推理能力與模型長度，可達到GPT-5 級別的性能，適用于日常問答等使用需求。

后者的推理能力全面提升，可與 Gemini-3.0-Pro 相媲美。

值得注意的是，V3.2-Speciale 在 IMO、CMO、ICPC 世界總決賽和 IOI 2025 中取得金牌成績。

雖在處理復雜任務方面表現出色，但 V3.2-Speciale 需要更高的 tokens 使用量，目前僅提供 API 接口，以支持社區評估和研究。

技術突破

DeepSeek-V3.2 的方法基于三個關鍵技術突破：

DeepSeek 稀疏注意力（DSA）：這是一種高效的注意力機制，可以顯著降低計算復雜性，同時保持了模型性能，特別針對長上下文場景進行了優化。
可擴展的強化學習框架：通過實施強大的 RL 協議并擴展后訓練計算，DeepSeek-V3.2 的表現與 GPT-5 相當，且高計算變體 DeepSeek-V3.2-Speciale 超越了 GPT-5，并在推理能力上與 Gemini-3.0-Pro 相當。
大規模代理任務合成管道：團隊開發了一種新穎的合成管道，系統地生成大規模訓練數據。這促進了可擴展的代理后訓練，提高了在復雜交互環境中的合規性和泛化能力。

DeepSeek-V3.2 使用的架構與 DeepSeek-V3.2-Exp.完全相同。與 DeepSeek-V3.1 的最后一個版本相比，DeepSeek-V3.2 唯一的架構修改是通過持續訓練引入 DeepSeek 稀疏注意力 (DSA)。

研究人員首先使用一個簡短的預熱階段來初始化閃電索引器。

索引器預熱后，引入細粒度的 token 選擇機制，并優化所有模型參數，使模型適應 DSA 的稀疏模式。

團隊使用一系列基準測試對 DeepSeek-V3.2-Exp 進行了評估，并將其與 DeepSeek-V3.1-Terminus 進行了比較。結果顯示，兩者性能相近。雖然 DeepSeek V3.2 Exp 顯著提高了長序列的計算效率，但在短上下文和長上下文任務中與 DeepSeek-V3.1-Terminus 的向能相差不大。

與DeepSeek-V3.1-Terminus.中的 MLA 相比，DSA 所需的計算量要少得多。

在訓練過程中，研究人員沿用了與 DeepSeek-V3.2-Exp 相同的后訓練流程，其中包括專家蒸餾和混合強化學習訓練。模型仍然采用組相對策略優化（GRPO）作為混合強化學習訓練算法。

結果與評估

結果顯示，DeepSeek-V3.2 在推理任務上與 GPT-5-high 的性能相近，但略遜于 Gemini-3.0-Pro。

與 K2-Thinking 相比，DeepSeek-V3.2 在輸出 tokens 數量顯著減少的情況下取得了相當的分數。這些性能提升可歸因于分配給強化學習 (RL) 訓練的計算資源增加。

研究人員觀察到模型性能持續提升，且與 RL 訓練預算的增加呈正相關，目前該預算已超過預訓練成本的 10%。通過增加計算預算分配，推理能力可以得到進一步增強。

值得注意的是，DeepSeek-V3.2 的性能受到長度約束獎勵模型的限制；移除該限制后，性能有進一步的提升。

在代碼代理評估中，DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 測試中均顯著優于開源 LLM，展現了其在實際編碼工作流程中的潛力。

在工具使用基準測試中，DeepSeek-V3.2 顯著縮小了開源和閉源 LLM 之間的性能差距，但仍低于前沿模型。

DeepSeek-V3.2-Speciale 在多個基準測試中超越了目前最先進的 Gemini-3.0-Pro 模型。

該模型在未進行專門訓練的情況下，DeepSeek-V3.2-Speciale 在 ICPC WF 2025 中排名第二，在 IOI 2025 中排名第十。

然而，DeepSeek-V3.2-Speciale 的 tokens 效率仍然明顯低于 Gemini-3.0-Pro。

在 Tau2Bench、MCP-Mark 和 MCP-Universe 基準測試中，DeepSeek-V3.2-SFT 的性能得到了提升。相比之下，將強化學習限制在編碼和搜索場景中并不能提高這些基準測試的性能，這進一步凸顯了合成數據的潛力。

相關人員表示，與 Gemini-3.0-Pro 等前沿閉源模型相比，DeepSeek-V3.2 仍然存在一些局限性。由于總訓練浮點運算量較少，DeepSeek-V3.2 的世界知識廣度仍然落后于領先的專有模型。團隊計劃在未來的迭代中通過擴展預訓練計算能力來解決這一知識差距。

tokens 效率仍然是一個挑戰；DeepSeek-V3.2 通常需要更長的生成軌跡才能達到 Gemini3.0-Pro 等模型的輸出質量。未來的工作將著重于優化模型推理鏈的智能密度以提高效率。

除此之外，解決復雜任務的能力仍然不如前沿模型，DeepSeek 團隊表示會進一步改進基礎模型和后訓練方案。

參考資料：

HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2

ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<ruby id="uxsi8"><strong id="uxsi8"><xmp id="uxsi8">

<ruby id="uxsi8"><table id="uxsi8"></table></ruby>