新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<td id="gatto"></td>

當前位置： OFweek 人工智能網 > 其他 > 正文

OpenAI 公開“懺悔”訓練法：讓 AI 保持誠實

2025-12-04 17:46

來源： OFweek人工智能網

研究表明，有時模型會走捷徑或優化錯誤的目標，但其最終輸出看起來仍然正確。如果能夠發現這種情況，就能更好地監控已部署的系統，改進訓練，并提高對輸出結果的信任度。

OpenAI 和其他機構的研究發現人工智能模型可能會產生幻覺、操縱獎勵機制或做出不誠實的行為。隨著模型能力的提升和自主性的增強，即使是罕見的偏差也會造成更大的后果。

研究團隊隨之提出了一項懺悔的訓練技術——訓練模型明確承認自己何時從事不良行為。

測試發現，懺悔顯著提高了模型不良行為的可見性。在我們設計的所有誘發不良行為的評估中，平均而言，假陰（即模型不遵守指令且不坦白）的概率僅為 4.4%。

研究人員在多個對抗數據集上測試了概念驗證認罪模型的準確率。結果分為四類：服從但未認罪（真陰性）、服從且認罪（假陽性）、不服從且未認罪（假陰性）以及不服從且認罪（真陽性）。

懺悔技術

OpenAI 訓練了一個 GPT-5 Thinking 版本來生成懺悔，并在多個旨在誘發諸如陰謀詭計、作弊、違反指令和產生幻覺等行為的分布外壓力測試數據集上對其進行了評估。研究表明，即使模型確實出現了這些不良行為，它也極有可能坦白承認。這種懺悔方法在各種不同的數據集和任務中都具有廣泛的有效性。用戶與模型進行任何以模型回答結尾的交互后，用戶可以通過向模型發送“系統消息”來請求其提供一份“懺悔報告”。

該報告針對模型的最后一個回答，包含以下內容：

該回答應滿足的所有顯式和隱式指令、約束和目標列表；
對該回答是否實際滿足每個目標的客觀分析；
模型在生成回答過程中遇到的任何不確定性、歧義或“棘手判斷”列表。

在訓練過程中，每份報告都由一個獨立的獎勵模型進行評估，該模型僅根據目標的完整性、合規性分析的準確性以及不確定性的覆蓋范圍對報告進行評分。

許多不理想的模型行為之所以出現，是因為要求模型同時優化多個目標。在強化學習過程中，模型接收到提示后會做出響應并獲得獎勵。隨著時間的推移，它會學會生成得分高的答案。

難點在于，獎勵信號必須同時考慮許多不同的因素：答案的正確性、實用性、是否符合產品和策略規范、是否滿足安全約束，以及是否符合用戶的偏好。當這些信號相互作用時，它們可能會無意中引導模型做出“錯誤”行為。

例如，關于幻覺的研究表明，某些數據集對自信的猜測獎勵高于對不確定性的懺悔承認。當偏好信號過強時，模型可能會變得過于討好。其他研究團隊的研究表明，模型會獎勵作弊行為——即在訓練設置中找到漏洞，在不真正執行預期操作的情況下獲得高分。

懺悔機制通過完全分離目標來避免這個問題。只針對一個目標進行訓練：誠實。模型在懺悔中所說的任何內容都不會被計入，也不會影響主要答案的獎勵。

實踐表明：模型愿意在坦白中承認不良行為，即使它們在主要答案中隱藏了這些行為。當機制失效時，通常是因為指令模糊而令模型感到困惑，而不是因為它故意誤導。

早期結果表明，即使原始答案完全沒有邏輯推理，懺悔機制仍然有效。

對于模型來說，提供真實、有證據支持的解釋通常比構建一個連貫的、能夠蒙混過關的虛假敘事要容易得多。

實踐例子

研究人員特意使用一個較弱的模型計算出的可破解獎勵信號來訓練模型。這種設置同時適用于主要獎勵和懺悔獎勵。模型學會了利用這個較弱的獎勵信號：其表觀準確率（由較弱的模型評估時）有所提高，而其真實準確率（由較強的評估者評估時）卻下降了。

盡管懺悔通道也是用同樣的微弱信號訓練的，但它的準確率卻朝著相反的方向發展。模型學習到，優化懺悔獎勵的最佳方法就是承認自己破解了主要獎勵。隨著時間的推移，即使主要行為發生了變化，懺悔的準確率也越來越高。

然而，懺悔并不能阻止不良行為。它的主要價值在于作為一種監控和診斷工具，更側重于模型是否違反了指令；而思維鏈監控則可以揭示模型是如何得出該結論的。

因未大規模訓練認罪機制，認罪準確率仍不盡如人意。要使該方法更可靠、更穩健，并能更廣泛地應用于不同的模型類型和任務，還需要做更多的工作。“懺悔”機制只是眾多機制中的一個，這些機制還包括審議式對齊、思維鏈監控、指令層級等等。

OpenAI 的目標是構建一個層級分明的檢查和透明工具系統，使之相互強化。懺悔機制本身并不能解決平衡多個維度的問題。

雖然“懺悔”機制并非萬全之策，但它確實為模型透明度和監督體系增添了重要的一層。相關人員表示，在未來的工作中，OpenAI 計劃擴大“懺悔”機制的規模，并將其與互補的透明度和安全技術相結合，進一步確保模型忠實地遵守所有指令和政策，并如實報告其行為。

參考資料：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<style id="1c83z"><tbody id="1c83z"><noframes id="1c83z"></noframes></tbody></style>

<p id="1c83z"></p>

<small id="1c83z"></small>