Kimi K2 Thinking 重磅來襲！推理能力趕超 ChatGPT-5

當前位置： OFweek 人工智能網 > 自然語言處理 > 正文

2025-11-07 18:29

來源： OFweek人工智能網

剛剛，Kimi K2 Thinking 新鮮出爐，官方介紹這是他們最好的開源思維模型。

Kimi K2 Thinking 是一個有思考能力的智能體，在使用工具的同時逐步推理。模型在 HLE、BrowseComp 和其他基準測試中取得了最先進的性能，在推理、智能搜索、編碼、寫作和通用能力方面都取得了重大進步。

Kimi K2 Thinking 無需人工干預即可執行多達 200 – 300 次連續工具調用，并在數百個步驟中進行連貫的推理，以解決復雜的問題。

思維模型的出現標志著 Kimi 在推理階段擴展的最新成果，通過擴展思考令牌和工具調用步驟來實現。

Kimi K2 Thinking 在評估推理、編碼和智能體能力的各項基準測試中均創下新紀錄。在 HLE with tools 測試中取得 44.9% 的成績，在 BrowseComp 測試中取得 60.2% 的成績，在 SWE-Bench Verified 測試中取得 71.3% 的成績，展現出強大泛化能力。

智能推理

HLE 是一項精心設計的封閉式基準測試，涵蓋 100 多個學科的數千道專家級題目。K2 Thinking 在 HLE 測試中取得了 44.9% 的成績，并借助搜索、Python 和網頁瀏覽工具，在多領域專家級推理表現方面表現優異。

K2 Thinking 曾成功地通過 23 次交錯的推理和工具調用解決了一個博士級別的數學問題，展現了其深度、結構化推理和長遠問題解決能力。

智能體編碼

K2 Thinking 在編碼和軟件開發任務中取得了顯著進步。在 SWE-Multilingual 測試中獲得了 61.1% 的分數，在 SWE-Bench Verified 測試中獲得了 71.3% 的分數，在 Terminal-Bench 測試中獲得了 47.1% 的分數，展現了其在編程語言和智能體框架方面的泛化能力。

該模型在 HTML、React 和組件密集型前端任務方面取得了顯著改進，能夠將想法轉化為功能齊全、響應迅速的產品。在智能體編碼環境中，它能夠在調用工具的同時進行推理，并能流暢地集成到軟件代理中，從而精準且靈活地執行復雜的多步驟開發工作流程。

智能搜索和瀏覽

K2 Thinking 在智能搜索和瀏覽場景中也表現優異。在評估模型持續瀏覽、搜索和推理網絡信息能力的 BrowseComp 測試中，K2 Thinking 取得了 60.2% 的得分，顯著優于人類基準測試的 29.2%。

K2 Thinking 能夠執行 200-300 次順序工具調用，這得益于其長遠規劃和自適應推理能力。它執行思考→搜索→瀏覽器使用→思考→編碼的動態循環，不斷生成和完善假設，驗證證據，進行推理，并構建連貫的答案。

K2 Thinking 的通用能力也有所提升，主要體現在三個領域：

創意寫作：K2 思維課程在完整性和豐富性方面均有所提升，能夠自然流暢地駕馭各種語氣和形式。
實用寫作：K2 思維能力在推理深度、視角廣度和指令遵循方面均有顯著提升，能更精準地理解提示，清晰系統地回應每一項要求，并經常對每個要點進行擴展，以確保全面覆蓋。
個人與情感：在處理個人或情感問題時，K2 Thinking 會以更富同理心和更平衡的方式回應。它幫助用戶以清晰而謹慎的態度應對復雜的決策。

為了提升推理效率，研究團隊在訓練后階段采用了量化感知訓練（QAT），對 MoE 組件應用僅 INT4 權重量化。這使得 K2 Thinking 能夠在原生支持 INT4 推理的同時，將生成速度提升約 2 倍。