新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<small id="4ob9t"></small>

當前位置： OFweek 人工智能網 > 其他 > 正文

DeepSeek 發布開年論文：提出mHC新架構，攻克深度學習難題

2026-01-16 15:40

來源： OFweek人工智能網

2025 年最后一天，DeepSeek 發布了最新論文，《mHC: Manifold-Constrained Hyper-Connections》。

近年來，以超連接（Hyper-Connections，HC）為代表的研究通過擴展殘差流寬度和多樣化連接模式，擴展了過去十年廣泛應用的殘差連接范式。雖然這種多樣化帶來了顯著的性能提升，但也導致嚴重的訓練不穩定和可擴展性受限。

DeepSeek 提出了流形約束超連接（Manifold-Constrained Hyper-Connections，mHC）。mHC 是一個通用框架，它將 HC 的殘差連接空間投影到特定的流形上以恢復恒等映射特性，同時結合嚴格的基礎設施優化來確保效率。

實驗表明，mHC 能夠有效地進行大規模訓練，提供顯著的性能提升和優異的可擴展性。這將有助于加深對拓撲架構設計的理解，并為基礎模型的演進指明有前景的方向。

方法論

團隊提出將殘差映射投影到一個流形上，該流形既能保持信號在各層間傳播的穩定性，又能促進殘差流之間的相互作用，從而保持模型的表達能力。

研究人員設定了一個雙重隨機性的參數 H，選擇賦予了模型若干嚴格的理論性質，有利于大規模模型的訓練。

此外，他們還對輸入映射 H 施加非負性約束。

通過嚴格的優化，團隊以僅 6.7% 的訓練開銷，在大規模模型中實現了 mHC。

他們采用混合精度策略在維持速度的前提下最大化數值精度，并將多個具有共享內存訪問的操作融合到統一的計算內核中，以減少內存帶寬瓶頸。

為了緩解內存開銷這個問題，研究人員在前向傳播之后丟棄 mHC 核的中間激活值，并在反向傳播過程中通過重新執行 mHC 核來動態地重新計算這些激活值。

為了防止阻塞通信流，研究人員在專用的高優先級計算流上執行 MLP 層的 Fkernel。此外，他們還避免在注意力層中對長時間運行的操作使用持久內核，從而避免長時間的停頓。

這種設計能夠搶占重疊的注意力計算，從而在保持計算設備處理單元高利用率的同時，實現靈活的調度。

此外，由于每個階段 x 的初始激活已在本地緩存，因此重新計算過程與流水線通信依賴性解耦。

實驗結果

結果表明，mHC 在損失和梯度范數方面均表現出更優的穩定性。

mHC 有效地緩解了 HC 中觀察到的訓練不穩定性，最終損失值比基線模型降低了 0.021。mHC 的表現明顯優于 HC，并保持了與基線模型相當的穩定性。

在多種基準測試中的下游性能，mHC 實現了全面的性能提升，始終優于基線模型，并在大多數任務上超越了 HC 模型。值得注意的是，與 HC 模型相比，mHC 模型進一步增強了推理能力，在 BBH 任務上性能提升了 2.1%，在 DROP 任務上性能提升了 2.3%。

即使在更高的計算預算下，mHC 性能優勢依然保持穩定。與 HC 相比，mHC 顯著提高了傳播穩定性，確保了穩定的前向信號和后向梯度流。

相關人員表示，對不同幾何約束的進一步研究可能會產生新的方法，從而更好地優化可塑性和穩定性之間的權衡。通過加深對拓撲結構如何影響優化和表征學習的理解，mHC 將有助于解決當前的局限性，并有可能為下一代基礎架構的演進指明新的方向。

參考資料：

https://www.arxiv.org/pdf/2512.24880

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<td id="zbqha"></td>

<td id="zbqha"><tr id="zbqha"><th id="zbqha"></th></tr></td>