2025 年最后一天,DeepSeek 發布了最新論文,《mHC: Manifold-Constrained Hyper-Connections》。
近年來,以超連接(Hyper-Connections,HC)為代表的研究通過擴展殘差流寬度和多樣化連接模式,擴展了過去十年廣泛應用的殘差連接范式。雖然這種多樣化帶來了顯著的性能提升,但也導致嚴重的訓練不穩定和可擴展性受限。
DeepSeek 提出了流形約束超連接(Manifold-Constrained Hyper-Connections,mHC)。mHC 是一個通用框架,它將 HC 的殘差連接空間投影到特定的流形上以恢復恒等映射特性,同時結合嚴格的基礎設施優化來確保效率。
實驗表明,mHC 能夠有效地進行大規模訓練,提供顯著的性能提升和優異的可擴展性。這將有助于加深對拓撲架構設計的理解,并為基礎模型的演進指明有前景的方向。
方法論
團隊提出將殘差映射投影到一個流形上,該流形既能保持信號在各層間傳播的穩定性,又能促進殘差流之間的相互作用,從而保持模型的表達能力。
研究人員設定了一個雙重隨機性的參數 H,選擇賦予了模型若干嚴格的理論性質,有利于大規模模型的訓練。
此外,他們還對輸入映射 H 施加非負性約束。
通過嚴格的優化,團隊以僅 6.7% 的訓練開銷,在大規模模型中實現了 mHC。
他們采用混合精度策略在維持速度的前提下最大化數值精度,并將多個具有共享內存訪問的操作融合到統一的計算內核中,以減少內存帶寬瓶頸。
為了緩解內存開銷這個問題,研究人員在前向傳播之后丟棄 mHC 核的中間激活值,并在反向傳播過程中通過重新執行 mHC 核來動態地重新計算這些激活值。
為了防止阻塞通信流,研究人員在專用的高優先級計算流上執行 MLP 層的 Fkernel。此外,他們還避免在注意力層中對長時間運行的操作使用持久內核,從而避免長時間的停頓。
這種設計能夠搶占重疊的注意力計算,從而在保持計算設備處理單元高利用率的同時,實現靈活的調度。
此外,由于每個階段 x 的初始激活已在本地緩存,因此重新計算過程與流水線通信依賴性解耦。
實驗結果
結果表明,mHC 在損失和梯度范數方面均表現出更優的穩定性。
mHC 有效地緩解了 HC 中觀察到的訓練不穩定性,最終損失值比基線模型降低了 0.021。mHC 的表現明顯優于 HC,并保持了與基線模型相當的穩定性。
在多種基準測試中的下游性能,mHC 實現了全面的性能提升,始終優于基線模型,并在大多數任務上超越了 HC 模型。值得注意的是,與 HC 模型相比,mHC 模型進一步增強了推理能力,在 BBH 任務上性能提升了 2.1%,在 DROP 任務上性能提升了 2.3%。
即使在更高的計算預算下,mHC 性能優勢依然保持穩定。與 HC 相比,mHC 顯著提高了傳播穩定性,確保了穩定的前向信號和后向梯度流。
相關人員表示,對不同幾何約束的進一步研究可能會產生新的方法,從而更好地優化可塑性和穩定性之間的權衡。通過加深對拓撲結構如何影響優化和表征學習的理解,mHC 將有助于解決當前的局限性,并有可能為下一代基礎架構的演進指明新的方向。
參考資料:
https://www.arxiv.org/pdf/2512.24880