字節 Seed 團隊發布循環語言模型 Ouro：LoopLM 架構引人注目

2025-11-04 17:35

部署擁有數千億參數的模型需要龐大的基礎設施，這會增加延遲和成本，并限制其可用性。

這個時候，參數效率就變得至關重要。研究人員探討，如何在固定的參數預算內實現更優的模型性能。

為了實現這種參數效率，目前探索了兩條主要途徑。

字節 Seed 團隊探索了基于架構創新的第三條路徑：用固定預算在架構中實現動態計算。

團隊研究主要貢獻了以下 4 點：

證明 14 億和 26 億參數的 LoopLM 在大多數基準測試中與 40 億和 80 億參數的標準 transformer 相當，參數效率提高了 2-3 倍。
自適應退出策略往往會陷入較淺的深度或過度使用長循環，這種情況可以通過在退出步驟上使用均勻先驗進行熵正則化來避免。
遞歸并不會增加原始知識存儲量，但會顯著增強需要事實組合和多跳推理的任務中的知識操作能力。
安全性和可靠性均有所提高。

循環架構

團隊的目標是讓模型能夠自主選擇每個詞元和每個樣本的循環步數，增加處理輸入問題時的效率。

LoopLM 的設計具備 3 個優點：

研究人員總共使用了 7.7T 個 token 來訓練基礎模型 Ouro-1.4B 和 Ouro-2.6B。

訓練數據的語料庫涵蓋網絡文本、數學公式、代碼和長上下文文檔，貫穿多個階段，在構建核心語言理解能力的同時，強化推理、編碼和長上下文技能。

為提升穩定性，研究人員減少了循環步數，并增加了批次。

團隊使用 LoopLM 架構，對基于 7.7T 個 token 訓練的 Ouro 基礎模型進行了全面的評估。評估重點關注模型在通用知識、推理、數學、科學、編程和多語言能力方面的性能。

以下是關于模型性能評估的總結：

14 億參數的 Ouro 模型在大多數基準測試中取得了與 40 億參數的 Qwen3-Base 模型相當的性能。在一些具有挑戰性的推理任務上，它的性能與 40 億參數的模型持平或更優
參數量為 26 億的 Ouro 模型在推理密集型基準測試中優于參數量高達 80 億的密集模型。它在 MMLU-Pro、BBH、MATH500 等測試中皆超過了參數量為 80 億的 Qwen3-Base 模型
循環架構在需要多步驟推理和知識操作的任務中表現出特別強大的優勢，在 MMLU-Pro、BBH、GSM8K 和 MATH500 基準測試中觀察到最明顯的提升