剛剛,Kimi K2 Thinking 新鮮出爐,官方介紹這是他們最好的開源思維模型。
Kimi K2 Thinking 是一個有思考能力的智能體,在使用工具的同時逐步推理。模型在 HLE、BrowseComp 和其他基準測試中取得了最先進的性能,在推理、智能搜索、編碼、寫作和通用能力方面都取得了重大進步。
Kimi K2 Thinking 無需人工干預即可執行多達 200 – 300 次連續工具調用,并在數百個步驟中進行連貫的推理,以解決復雜的問題。
思維模型的出現標志著 Kimi 在推理階段擴展的最新成果,通過擴展思考令牌和工具調用步驟來實現。
Kimi K2 Thinking 在評估推理、編碼和智能體能力的各項基準測試中均創下新紀錄。在 HLE with tools 測試中取得 44.9% 的成績,在 BrowseComp 測試中取得 60.2% 的成績,在 SWE-Bench Verified 測試中取得 71.3% 的成績,展現出強大泛化能力。
智能推理
HLE 是一項精心設計的封閉式基準測試,涵蓋 100 多個學科的數千道專家級題目。K2 Thinking 在 HLE 測試中取得了 44.9% 的成績,并借助搜索、Python 和網頁瀏覽工具,在多領域專家級推理表現方面表現優異。
K2 Thinking 曾成功地通過 23 次交錯的推理和工具調用解決了一個博士級別的數學問題,展現了其深度、結構化推理和長遠問題解決能力。
智能體編碼
K2 Thinking 在編碼和軟件開發任務中取得了顯著進步。在 SWE-Multilingual 測試中獲得了 61.1% 的分數,在 SWE-Bench Verified 測試中獲得了 71.3% 的分數,在 Terminal-Bench 測試中獲得了 47.1% 的分數,展現了其在編程語言和智能體框架方面的泛化能力。
該模型在 HTML、React 和組件密集型前端任務方面取得了顯著改進,能夠將想法轉化為功能齊全、響應迅速的產品。在智能體編碼環境中,它能夠在調用工具的同時進行推理,并能流暢地集成到軟件代理中,從而精準且靈活地執行復雜的多步驟開發工作流程。
智能搜索和瀏覽
K2 Thinking 在智能搜索和瀏覽場景中也表現優異。在評估模型持續瀏覽、搜索和推理網絡信息能力的 BrowseComp 測試中,K2 Thinking 取得了 60.2% 的得分,顯著優于人類基準測試的 29.2%。
K2 Thinking 能夠執行 200-300 次順序工具調用,這得益于其長遠規劃和自適應推理能力。它執行思考→搜索→瀏覽器使用→思考→編碼的動態循環,不斷生成和完善假設,驗證證據,進行推理,并構建連貫的答案。
K2 Thinking 的通用能力也有所提升,主要體現在三個領域:
創意寫作:K2 思維課程在完整性和豐富性方面均有所提升,能夠自然流暢地駕馭各種語氣和形式。
實用寫作:K2 思維能力在推理深度、視角廣度和指令遵循方面均有顯著提升,能更精準地理解提示,清晰系統地回應每一項要求,并經常對每個要點進行擴展,以確保全面覆蓋。
個人與情感:在處理個人或情感問題時,K2 Thinking 會以更富同理心和更平衡的方式回應。它幫助用戶以清晰而謹慎的態度應對復雜的決策。
為了提升推理效率,研究團隊在訓練后階段采用了量化感知訓練(QAT),對 MoE 組件應用僅 INT4 權重量化。這使得 K2 Thinking 能夠在原生支持 INT4 推理的同時,將生成速度提升約 2 倍。
評估
K2 Thinking 在推理、智能搜索和編碼的基準測試中表現出色。
K2 Thinking 現已在 kimi.com 上線,目前提供聊天模式。此外,用戶還可以通過 Kimi K2 Thinking API 訪問該功能。
參考資料:
https://moonshotai.github.io/Kimi-K2/thinking.html