美團新模型 LongCat-Flash-Thinking-2601 來了。
這款大規模推理模型擁有 5600 億個參數,基于創新的 MoE 架構構建。
除了繼承前一版本中領域并行訓練方法并保持傳統推理基準測試的優異性能外,本次更新還通過精心設計的流程系統性地增強了智能體的思考能力。
該流程結合了環境擴展和后續任務合成,并輔以可靠高效的大規模多環境強化學習。
為了更好地適應真實世界智能體任務中固有的噪聲和不確定性,研究人員對多種類型和級別的環境噪聲進行了系統分析和課程訓練,從而在不理想條件下也能保持穩健的性能。
因此,LongCat-Flash-Thinking-2601 不僅在智能體工具使用、智能體搜索和工具集成推理等基準測試中取得了頂尖的性能,而且在任意分布外的真實世界智能體場景中也顯著提升了泛化能力。
在評估方面,研究團隊設計了專門的評估協議來評估模型的魯棒性和泛化能力。此外,還引入了重思維模式,能夠同時啟動 8 路思考,進一步提升模型在極具挑戰性任務上的性能。
主要特點
環境擴展和多環境強化學習
團隊構建了一系列高質量的多樣化環境,作為強化學習的訓練場,使模型能夠習得高層次、可泛化的智能體技能。
每個環境包含超過 60 種工具,這些工具以密集依賴圖的形式組織,為構建多樣化的任務和進行大規模探索提供了足夠的復雜性。
隨著訓練環境數量的增加,模型的泛化能力得到了增強。
高質量的任務建設:為了確保訓練任務集的質量,研究人員明確控制了任務的復雜度和多樣性。每個任務都定義在一個從高質量環境中采樣得到的連通子圖上,并通過要求在采樣子圖內盡可能多地協同使用工具來控制任務的復雜度。為了提高任務的多樣性,逐步降低先前選擇的工具的采樣概率,并構建了相應的數據庫以確保任務的可執行性,并且驗證每個任務至少存在一個可執行的解決方案。
多環境強化學習:在保持高效異步訓練和流式部署特性的同時,進一步擴展了強化學習基礎設施(DORA),以支持大規模多環境智能體訓練,這符合環境擴展協議的要求。來自多個環境的任務以均衡的方式在每個訓練批次中聯合組織,并根據其復雜性和當前訓練狀態分配不同的部署預算。
針對嘈雜環境的穩健訓練
由于現實世界中的智能體環境本身就存在噪聲和缺陷,僅在理想化環境中訓練模型是不夠的,往往會導致模型魯棒性不足。
為了解決這個問題,研究人員將環境缺陷顯式地融入模型訓練過程中,以增強模型的魯棒性。
他們系統地分析了智能體場景中現實世界噪聲的主要來源,并設計了一個自動流程將這些噪聲注入到訓練環境中。
在強化學習過程中,他們采用了一種課程策略,隨著訓練的進行逐步增加噪聲的類型和強度。這使得 LongCat-Flash-Thinking-2601 模型對環境不確定性表現出很強的適應能力,并在不完美條件下持續取得更佳的性能。
深度思考模式
為了突破現有推理能力的瓶頸,研究團隊構建了深度思考模式。該模式可分解為兩個互補階段:并行思考和概括,從而同時提升推理的深度和廣度。
在深度思考模式下,為了提升推理廣度,系統會并行生成多條獨立軌跡,從而實現對推理路徑的廣泛探索。此處采用了較高的推理溫度,以確保推理路徑的多樣性。
在深度思考模式下,概括階段生成的精煉軌跡可以遞歸地反饋到概括模型中,形成一個迭代推理循環,從而支持逐步加深的推理。
此外,他們還專門設計了一個強化學習階段來訓練概括能力,進一步釋放了該模式的潛力。