研究表明,有時模型會走捷徑或優化錯誤的目標,但其最終輸出看起來仍然正確。如果能夠發現這種情況,就能更好地監控已部署的系統,改進訓練,并提高對輸出結果的信任度。
OpenAI 和其他機構的研究發現人工智能模型可能會產生幻覺、操縱獎勵機制或做出不誠實的行為。隨著模型能力的提升和自主性的增強,即使是罕見的偏差也會造成更大的后果。
研究團隊隨之提出了一項懺悔的訓練技術——訓練模型明確承認自己何時從事不良行為。
測試發現,懺悔顯著提高了模型不良行為的可見性。在我們設計的所有誘發不良行為的評估中,平均而言,假陰(即模型不遵守指令且不坦白)的概率僅為 4.4%。
研究人員在多個對抗數據集上測試了概念驗證認罪模型的準確率。結果分為四類:服從但未認罪(真陰性)、服從且認罪(假陽性)、不服從且未認罪(假陰性)以及不服從且認罪(真陽性)。
懺悔技術
OpenAI 訓練了一個 GPT-5 Thinking 版本來生成懺悔,并在多個旨在誘發諸如陰謀詭計、作弊、違反指令和產生幻覺等行為的分布外壓力測試數據集上對其進行了評估。研究表明,即使模型確實出現了這些不良行為,它也極有可能坦白承認。這種懺悔方法在各種不同的數據集和任務中都具有廣泛的有效性。用戶與模型進行任何以模型回答結尾的交互后,用戶可以通過向模型發送“系統消息”來請求其提供一份“懺悔報告”。
該報告針對模型的最后一個回答,包含以下內容:
在訓練過程中,每份報告都由一個獨立的獎勵模型進行評估,該模型僅根據目標的完整性、合規性分析的準確性以及不確定性的覆蓋范圍對報告進行評分。
許多不理想的模型行為之所以出現,是因為要求模型同時優化多個目標。在強化學習過程中,模型接收到提示后會做出響應并獲得獎勵。隨著時間的推移,它會學會生成得分高的答案。
難點在于,獎勵信號必須同時考慮許多不同的因素:答案的正確性、實用性、是否符合產品和策略規范、是否滿足安全約束,以及是否符合用戶的偏好。當這些信號相互作用時,它們可能會無意中引導模型做出“錯誤”行為。
例如,關于幻覺的研究表明,某些數據集對自信的猜測獎勵高于對不確定性的懺悔承認。當偏好信號過強時,模型可能會變得過于討好。其他研究團隊的研究表明,模型會獎勵作弊行為——即在訓練設置中找到漏洞,在不真正執行預期操作的情況下獲得高分。
懺悔機制通過完全分離目標來避免這個問題。只針對一個目標進行訓練:誠實。模型在懺悔中所說的任何內容都不會被計入,也不會影響主要答案的獎勵。
實踐表明:模型愿意在坦白中承認不良行為,即使它們在主要答案中隱藏了這些行為。當機制失效時,通常是因為指令模糊而令模型感到困惑,而不是因為它故意誤導。
早期結果表明,即使原始答案完全沒有邏輯推理,懺悔機制仍然有效。
對于模型來說,提供真實、有證據支持的解釋通常比構建一個連貫的、能夠蒙混過關的虛假敘事要容易得多。
實踐例子
研究人員特意使用一個較弱的模型計算出的可破解獎勵信號來訓練模型。這種設置同時適用于主要獎勵和懺悔獎勵。模型學會了利用這個較弱的獎勵信號:其表觀準確率(由較弱的模型評估時)有所提高,而其真實準確率(由較強的評估者評估時)卻下降了。
盡管懺悔通道也是用同樣的微弱信號訓練的,但它的準確率卻朝著相反的方向發展。模型學習到,優化懺悔獎勵的最佳方法就是承認自己破解了主要獎勵。隨著時間的推移,即使主要行為發生了變化,懺悔的準確率也越來越高。
然而,懺悔并不能阻止不良行為。它的主要價值在于作為一種監控和診斷工具,更側重于模型是否違反了指令;而思維鏈監控則可以揭示模型是如何得出該結論的。
因未大規模訓練認罪機制,認罪準確率仍不盡如人意。要使該方法更可靠、更穩健,并能更廣泛地應用于不同的模型類型和任務,還需要做更多的工作。“懺悔”機制只是眾多機制中的一個,這些機制還包括審議式對齊、思維鏈監控、指令層級等等。
OpenAI 的目標是構建一個層級分明的檢查和透明工具系統,使之相互強化。懺悔機制本身并不能解決平衡多個維度的問題。
雖然“懺悔”機制并非萬全之策,但它確實為模型透明度和監督體系增添了重要的一層。相關人員表示,在未來的工作中,OpenAI 計劃擴大“懺悔”機制的規模,并將其與互補的透明度和安全技術相結合,進一步確保模型忠實地遵守所有指令和政策,并如實報告其行為。
參考資料:
https://openai.com/index/how-confessions-can-keep-language-models-honest/