部署擁有數千億參數的模型需要龐大的基礎設施,這會增加延遲和成本,并限制其可用性。
這個時候,參數效率就變得至關重要。研究人員探討,如何在固定的參數預算內實現更優的模型性能。
為了實現這種參數效率,目前探索了兩條主要途徑。
擴展訓練語料庫,而不考慮模型規模
利用“思維鏈 (CoT)”推理來提升推理時的計算能力
字節 Seed 團隊探索了基于架構創新的第三條路徑:用固定預算在架構中實現動態計算。
團隊研究主要貢獻了以下 4 點:
證明 14 億和 26 億參數的 LoopLM 在大多數基準測試中與 40 億和 80 億參數的標準 transformer 相當,參數效率提高了 2-3 倍。
自適應退出策略往往會陷入較淺的深度或過度使用長循環,這種情況可以通過在退出步驟上使用均勻先驗進行熵正則化來避免。
遞歸并不會增加原始知識存儲量,但會顯著增強需要事實組合和多跳推理的任務中的知識操作能力。
安全性和可靠性均有所提高。
循環架構
團隊的目標是讓模型能夠自主選擇每個詞元和每個樣本的循環步數,增加處理輸入問題時的效率。
LoopLM 的設計具備 3 個優點:
通過學習到的提前退出機制實現自適應計算,這使得計算深度與參數數量解耦
LoopLM 通過加深其內部計算圖而不是擴展輸出序列來擴展,從而避免了上下文長度膨脹
LoopLM 可以提高每個參數的容量,并且在相同數據上訓練時優于更大規模的標準 Transformer 模型
研究人員總共使用了 7.7T 個 token 來訓練基礎模型 Ouro-1.4B 和 Ouro-2.6B。
訓練數據的語料庫涵蓋網絡文本、數學公式、代碼和長上下文文檔,貫穿多個階段,在構建核心語言理解能力的同時,強化推理、編碼和長上下文技能。
為提升穩定性,研究人員減少了循環步數,并增加了批次。
性能直逼 Qwen
團隊使用 LoopLM 架構,對基于 7.7T 個 token 訓練的 Ouro 基礎模型進行了全面的評估。評估重點關注模型在通用知識、推理、數學、科學、編程和多語言能力方面的性能。
以下是關于模型性能評估的總結:
14 億參數的 Ouro 模型在大多數基準測試中取得了與 40 億參數的 Qwen3-Base 模型相當的性能。在一些具有挑戰性的推理任務上,它的性能與 40 億參數的模型持平或更優
參數量為 26 億的 Ouro 模型在推理密集型基準測試中優于參數量高達 80 億的密集模型。它在 MMLU-Pro、BBH、MATH500 等測試中皆超過了參數量為 80 億的 Qwen3-Base 模型
循環架構在需要多步驟推理和知識操作的任務中表現出特別強大的優勢,在 MMLU-Pro、BBH、GSM8K 和 MATH500 基準測試中觀察到最明顯的提升
從參數化知識的角度理解 LoopLM 的優點
LoopLMs 不會增加知識容量
團隊使用相同的參數在 Capo 任務上訓練了 LoopLM 和標準變換器基線模型,以比較循環次數增加帶來的知識容量提升。實驗表明,在參數數量相同的情況下,循環模型及其非循環基線模型在 Capo 任務上的知識容量幾乎相同。
LoopLMs 在知識操縱方面占主導地位
團隊發現,循環次數越多的模型學習問答任務所需的樣本越少。循環次數越多的模型學習速度越快,性能也越好。
LoopLM 架構迭代精化過程提供了推理軌跡,緩解了標準 CoT 中常見的后驗合理化問題。此外,其安全性也會隨著循環步驟的增加而顯著提升。這項工作確立了迭代潛在計算作為參數和數據之外的第三個關鍵擴展維度。
研究人員表示,未來的研究應著重于在更深層次上提升性能外推能力,并探索更復雜的循環機制,從而鞏固這種參數高效方法在數據受限時代的重要地位。
參考資料:
https://arxiv.org/pdf/2510.25741