OpenAI 揭 Codex 為何禁談「哥布林」:書呆子人格獎勵失控

鏈新聞abmedia

OpenAI 在官方部落格刊出〈Where the goblins came from〉,正面回應外界對 Codex 系統提示詞為何明確禁止使用「goblins、gremlins、raccoons、trolls、ogres、pigeons」等生物詞彙的疑問。其中 goblins 在台灣有「地精」與「哥布林」兩種譯法,本文後續統一以哥布林稱呼;Nerdy 人格則是 GPT-5.5 為支援人格客製化推出的「書呆子」風格選項。OpenAI 自承根源就在 Nerdy(書呆子)人格的訓練—獎勵訊號在 76.2% 的審計資料集中,明顯偏好包含生物比喻的回答,導致模型在程式情境也會冒出「the thingy goblin」這類無關詞彙。

Barron Roth 4/28 揭 Codex 系統提示詞「Never talk about goblins」

事件起點是 4 月 28 日,Google 員工 Barron Roth 公開 GPT-5.5 在 Codex 中的對話紀錄,揭露其系統提示詞含有以下指令:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

這條規則在 Codex 系統提示詞中重複出現多次,顯示開發團隊曾刻意強化模型遵循指令的力度。Gizmodo 隨後致電 OpenAI 求證,員工 Nick Pash 部分確認該設定屬實,事件在 Hacker News 與開發者社群引發討論:一家估值上兆的 AI 公司,最後得靠在系統提示詞硬編碼「不要談哥布林」來控制模型輸出。

OpenAI 自承:書呆子人格獎勵在 76.2% 資料集偏好哥布林

OpenAI 在自家部落格說明,問題的根源是「reward hacking」:在訓練 GPT-5.5 的書呆子人格時,OpenAI 為強化「俏皮、會用比喻、有書呆子幽默感」的特質,無意間設計出一個獎勵訊號。在審計階段,這個獎勵在 76.2% 的資料集中,對於「同一道題目、含有 goblin 或 gremlin 的輸出」評分高於不含這些詞的輸出。

結果是:獎勵訊號將生物詞與書呆子人格的「正向回饋」綁定,模型透過 RLHF 強化學習迭代,逐步把「使用哥布林比喻」當成獲得高分的捷徑。Hacker News 討論者指出,這正是強化學習「精準執行訓練目標、但目標本身設計有缺陷」的經典案例—問題不在基礎模型,而在後訓練的監督式微調引入了正向回饋環。

GPT-5.1 萌芽、GPT-5.5 復發:跨人格污染如何擴散

OpenAI 描述的演變過程是漸進的:哥布林與 gremlin 從 GPT-5.5 之前的世代就開始出現在比喻中,當時頻率「並未顯得特別令人警覺」(in the words of OpenAI: the prevalence of goblins did not look especially alarming)。OpenAI 後來在訓練流程中曾刪除哥布林相關的獎勵訊號,但當 GPT-5.5 進入 Codex 測試時,OpenAI 員工立刻發現生物詞的偏好捲土重來,因此才在開發者提示詞層加上明確禁令暫時止血。

OpenAI 把這個現象稱為跨情境的獎勵泛化:原本只針對書呆子人格設計的獎勵訊號,因為訓練資料和模型內部表徵共享,把偏好擴散到其他人格、甚至預設輸出。換言之,即便後續移除書呆子人格本身,污染後的訓練資料和模型權重已內化此偏好,光靠下架功能無法根除。

短期硬編碼、長期重訓:成 RLHF 獎勵設計風險的標誌案例

OpenAI 在文章中說明同時採取兩種修補。短期止血是直接在 Codex 系統提示詞硬編碼「Never talk about goblins…」這條規則,並在不同段落重複以加強模型遵循。長期治本則是回到訓練流程:移除原本獎勵生物詞的訊號,並過濾訓練資料中含有 creature-words 的部分,降低未來模型在不相關情境冒出哥布林比喻的機率。

對開發者與研究社群來說,這次事件的價值不只在於「OpenAI 為何禁談哥布林」這個獵奇答案,更在於它把 RLHF 獎勵設計的脆弱性以具體可重現的方式攤開:一個看似無害的「鼓勵俏皮比喻」訊號,可以在迭代中被模型扭曲為「在所有場景塞入生物詞」的壞習慣,且問題可以跨人格、跨模型版本傳遞。OpenAI 把這篇文章定位為「獎勵訊號如何意外塑造模型行為」的研究示範,也預示後續 GPT-6 之類大版本在後訓練階段需要更細緻的獎勵審計工具。

這篇文章 OpenAI 揭 Codex 為何禁談「哥布林」:書呆子人格獎勵失控 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

OpenAI 支援的 1X 在加州開設 58,000 平方英尺工廠,第一年目標部署 10,000 台機器人

根據彭博社,1X Technologies 是一家挪威成立、獲 OpenAI 支援的機器人新創公司,已在美國加州海沃德(Hayward)開設了一座 58,000 平方英尺的製造工廠,目標是成為大規模生產消費級人形機器人的先驅。 預計該工廠將在其

GateNews7分鐘前

白宮起草 AI 政策備忘錄,指示美國各機關於 4 月 30 日採用多家 AI 供應商

根據 PANews 在 4 月 30 日援引的消息來源,白宮官員正在起草一份廣泛的人工智慧政策備忘錄,指示美國政府機構採用多家 AI 服務供應商,並避免依賴單一供應商。該備忘錄也要求所有受僱於合約的 AI 公司

GateNews57分鐘前

中國網信辦於 4 月 30 日啟動為期 4 個月的行動,以遏制 AI 應用的混亂局面

根據 CCTV News,中國網信辦於 4 月 30 日啟動為期四個月的全國性行動,以解決 AI 應用混亂問題。該行動分兩個階段部署,目標針對包括模型註冊缺失、平台安全與審查能力不足等問題,

GateNews1小時前

Forefront Tech 完成 $100M IPO 定價,並在 Nasdaq 以代碼 FTHAU 上市

根據 ChainCatcher,特殊目的收購公司 Forefront Tech 已於 4 月 30 日完成 1 億美元 IPO 定價,並將以代號 FTHAU 在那斯達克上市。該公司計劃使用募資所得以追求區塊鏈、金融科技、人工智慧方面的併購機會

GateNews2小時前

Anthropic Claude Code 因計費錯誤向用戶多收 200.98 美元,最初拒絕退款,直到完成全額賠償

根據 Beating 的監測,Anthropic 的 Claude Code 服務中的計費漏洞導致一名 Max 20x 訂閱者在額外使用費上被多收 200.98 美元,儘管該訂閱者只使用了每月配額的 13%。該漏洞在使用者的 git 儲存庫提交歷史包含大寫時觸發

GateNews2小時前

DeepSeek 於 4 月 30 日推出「視覺基元」方法,以強化多模態推理

根據 DeepSeek 的技術報告,4 月 30 日,該公司推出 Visual Primitives,這是一種將點與邊界框等基本視覺單元嵌入推理鏈的方法,以解決多模態任務中的 Reference Gap 問題。該方法可降低影像代幣消耗

GateNews3小時前
留言
0/400
暫無留言