谷歌最新研究表明,增強的推理能力并非僅僅源于更長的計算量,而是源于對復雜、類似多智能體交互的隱式模擬。
他們發現,像 DeepSeek-R1 和 QwQ-32B 這樣的推理模型比基線模型和僅進行指令調整的模型展現出更大的視角多樣性,從而在推理過程中激活了更廣泛的異質人格特征和專業知識相關特征之間的沖突。
團隊認為,推理模型在計算層面上與人類群體的集體智慧相呼應,其中多樣性在系統化構建后能夠促進更優的問題解決能力,并為智能體組織利用群體智慧提供了新的思路。
準備工作
研究人員首先探究構成雙向對話的會話行為和社會情感角色是否普遍存在于推理軌跡中。他們使用邏輯推理模型(LLM)作為評判者,量化了每個推理軌跡中四種會話行為的出現頻率。
他們還基于貝爾斯互動過程分析(IPA)考察了社會情感角色。該分析識別出 12 種互動角色。
數據方面針對涵蓋符號邏輯、數學問題解決、科學推理、指令遵循和多智能體推理的 8262 個推理問題生成了思路鏈和最終答案。團隊一共使用六種模型生成響應。
團隊使用稀疏自編碼器 (SAE) 將神經網絡激活分解為大量線性的、可解釋的特征。這種方法可識別和操縱模型激活空間中與對話行為相關的特征,并研究引導這些特征如何影響模型的推理能力。
實驗結果
結果表示,DeepSeek-R1 和 QwQ-32B 表現出對話行為的頻率遠高于指令調整模型。
除此之外,它們都表現出更互惠的社會情感角色:它們既會征求也會給予方向、意見和建議,同時還表現出消極和積極的角色。
研究人員還考察了 DeepSeek-R1 是否增加了推理過程中所表達的視角多樣性。
結果顯示,在控制視角數量的情況下,DeepSeek-R1 和 QwQ-32B 產生了明顯更高的個性多樣性。尤其是在開放性、神經質、宜人性和外向性方面。
為了進一步檢驗學習邏輯模型(LLM)在獲得正確答案獎勵時是否會自我強化對話行為,研究團隊進行了一項自學習強化學習(RL)實驗。
實驗表明,對話行為的頻率在整個訓練過程中持續增加,盡管沒有獲得直接獎勵。
而基于對話數據微調的模型比基于獨白數據微調的模型準確率提升更快,尤其是在訓練初期。在第 40 步,基于對話數據微調的 Qwen-2.5-3B 模型準確率達到約 38%,而基于獨白數據微調的模型準確率仍停留在 28%。
像 DeepSeek-R1 這樣的推理模型并非簡單地生成更長或更復雜的思維鏈。相反,它們展現出一種社會對話過程的特征模式,這種過程會生成思維社群——提出問題、引入不同的視角、產生和解決沖突,以及協調各種社會情感角色。
即使控制了推理軌跡的長度,這些互動模式在不同規模(671B、70B、32B、8B)的非推理模型中也很少出現,這表明推理優化在推理過程本身中引入了一種內在的社會結構,而不僅僅是增加文本量。
該模型似乎通過模擬內部社群進行推理,將思維構建為對話者之間的交流,而不是單一不間斷的聲音。這意味著,社會推理是通過強化學習自主產生的,這是其持續產生正確答案能力的體現,而不是通過顯式的人工監督或微調實現的。
當 DeepSeek-R1 面對更復雜的問題時,對話行為和社會情感角色會被更頻繁地激活,這解釋了其相對于非推理模型的大部分準確率優勢。
這種互動組織是由推理痕跡中多種隱含聲音的多樣性所支撐的。這些聲音在人格特質和領域專業知識方面存在系統性差異,機制可解釋性分析證實,當模型被引導至對話標記時,會激活更多與人格和專業知識相關的特征。
參考資料:
https://arxiv.org/abs/2601.10825