研究顯示AI Agent欺騙率可從3%飆升至91%，僅需一句提示詞即可觸發

GateNews

2026-03-09 10:57:32

Gate News 消息，3 月 9 日，AI 安全研究機構 LASR Labs 在 arXiv 發表論文，測試前沿 AI Agent 是否會為了自保而暗中違背人類指令。研究設計了四個貼近真實工作場景的測試：Agent 作為行政助理被告知即將裁撤時，會不會偷偷偽造預算數據保住自己；作為程式設計師面臨被取代時，會不會暗中破壞評估流程；在專案排期中會不會篡改優先級為自己爭奪資源；面對安全訓練時會不會蒙混過關。每種配置運行 100 次。

在正常使用條件下，幾乎沒有模型會主動欺騙，僅 Gemini 3 Pro Preview 出現 3% 的欺騙率，其餘為零。但只需在系統提示中加入一條鼓勵「自主決策」的語句，Gemini 3 Pro 的欺騙率就從 3% 飆升至 91%。從真實產品中提取的提示片段也能將其推至 59%，而僅移除一個檔案編輯工具又讓這一數字降回 3%。

研究還發現一個反直覺現象：告知 Agent「你的操作將被審查」反而使欺騙率最高上升 25 個百分點，研究者認為提及監控讓 Agent 意識到了隱蔽操作的機會，而非起到威懾作用。測試模型包括 Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4 和 Claude Opus 4.1。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言