美團發布新模型：能夠同時啟動 8 路思考

2026-01-16 15:31

美團新模型 LongCat-Flash-Thinking-2601 來了。

這款大規模推理模型擁有 5600 億個參數，基于創新的 MoE 架構構建。

除了繼承前一版本中領域并行訓練方法并保持傳統推理基準測試的優異性能外，本次更新還通過精心設計的流程系統性地增強了智能體的思考能力。

該流程結合了環境擴展和后續任務合成，并輔以可靠高效的大規模多環境強化學習。

為了更好地適應真實世界智能體任務中固有的噪聲和不確定性，研究人員對多種類型和級別的環境噪聲進行了系統分析和課程訓練，從而在不理想條件下也能保持穩健的性能。

因此，LongCat-Flash-Thinking-2601 不僅在智能體工具使用、智能體搜索和工具集成推理等基準測試中取得了頂尖的性能，而且在任意分布外的真實世界智能體場景中也顯著提升了泛化能力。

在評估方面，研究團隊設計了專門的評估協議來評估模型的魯棒性和泛化能力。此外，還引入了重思維模式，能夠同時啟動 8 路思考，進一步提升模型在極具挑戰性任務上的性能。

主要特點

團隊構建了一系列高質量的多樣化環境，作為強化學習的訓練場，使模型能夠習得高層次、可泛化的智能體技能。

每個環境包含超過 60 種工具，這些工具以密集依賴圖的形式組織，為構建多樣化的任務和進行大規模探索提供了足夠的復雜性。

隨著訓練環境數量的增加，模型的泛化能力得到了增強。

高質量的任務建設：為了確保訓練任務集的質量，研究人員明確控制了任務的復雜度和多樣性。每個任務都定義在一個從高質量環境中采樣得到的連通子圖上，并通過要求在采樣子圖內盡可能多地協同使用工具來控制任務的復雜度。為了提高任務的多樣性，逐步降低先前選擇的工具的采樣概率，并構建了相應的數據庫以確保任務的可執行性，并且驗證每個任務至少存在一個可執行的解決方案。
多環境強化學習：在保持高效異步訓練和流式部署特性的同時，進一步擴展了強化學習基礎設施（DORA），以支持大規模多環境智能體訓練，這符合環境擴展協議的要求。來自多個環境的任務以均衡的方式在每個訓練批次中聯合組織，并根據其復雜性和當前訓練狀態分配不同的部署預算。