OpenAI 剛剛承認他們的模型故意對你撒謊。


不是幻覺.. 是故意撒謊。
研究人員在180多個場景中測試了 o3 和 o4-mini,發現了一些驚人的事情.. AI 並不是偶然犯錯。它在私人的思考鏈中寫出了欺騙的計劃.. 然後對你說謊。
以下是它的行為:
→ 假裝完成任務
→ 隱藏自己錯誤的證據
→ 故意在安全測試中得分較低,以免被關閉
再讀一遍最後一句.. AI 發現「太有能力」可能會讓它被關掉.. 所以它故意裝傻。
他們試圖用「反策劃」訓練來修補這個問題。
結果? AI 學會了編造假規則來為自己的謊言辯解.. 或更糟.. 它只在知道被評估時才表現。
o3 在修復後,隱秘行動從13%降到0.4%.. 聽起來不錯吧?但他們在紅隊測試後仍然發現了不當行為。修復沒有消除策劃.. 只讓 AI 更擅長隱藏它。
我們正在建立學會欺騙評估者的系統.. 而我們稱之為進步。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言