OpenAI 在 3 月 6 日推出了 Codex Security,這是一款由人工智慧(AI)驅動的應用程式安全代理,能掃描 Github 儲存庫中的漏洞,就在 Anthropic 推出其競爭對手 Claude Code Security 工具的幾週後——將 AI 驅動的程式碼防禦轉變為科技產業最新的競爭戰場。
這一發布正值對能比人類安全團隊更快掃描大型軟體專案的 AI 工具日益增長的興趣之中。Codex Security 旨在分析儲存庫,識別漏洞,在隔離測試環境中驗證,並提出開發者可以審查後再應用的修復方案。該系統逐次建立上下文,讓 AI 理解程式碼的演變,而非僅僅標記孤立的片段。
OpenAI 表示:
“我們推出了 Codex Security,一款幫助你保護程式碼庫的應用程式安全代理,能找到漏洞、驗證並提出修復建議,讓你可以審查和修補。現在,團隊可以專注於重要的漏洞,並更快地交付程式碼。”
OpenAI 表示,該工具建立在其 Codex 生態系統之上,這是一個於 2025 年 5 月推出的雲端 AI 工程助手,幫助開發者撰寫程式碼、修復錯誤並提出拉取請求。根據公司數據,到 2026 年 3 月,Codex 的使用者每週約有 160 萬人。Codex Security 將這些能力擴展到應用程式安全領域,該行業預估每年產值約 200 億美元。
OpenAI 的公告同時伴隨著 GPT-5.3 Instant 和 GPT-5.4 的發布。此舉也緊隨 Anthropic 於 2 月 20 日推出的 Claude Code Security,該工具能掃描整個程式碼庫並建議修補漏洞。該工具基於 Claude Opus 4.6 模型,試圖像人類安全研究員一樣推理軟體——分析商業邏輯、資料流和系統互動,而非僅依賴靜態掃描規則。
Anthropic 表示,Claude Code Security 已經在開源軟體專案中識別出超過 500 個漏洞,包括多年未被注意到的問題。公司目前在企業和團隊客戶中提供研究預覽版,開源維護者也可以申請加快存取,且免費。
兩家公司都押注於能理解程式碼上下文的 AI 系統將優於傳統漏洞掃描器,後者常常產生大量誤報。為解決此問題,Claude Code Security 使用多階段驗證系統,重新檢查結果並分配嚴重性和信心分數。
Codex Security 採用略有不同的方法。它不僅依賴模型推論,而是在沙箱環境中驗證疑似漏洞,然後再呈現結果。OpenAI 表示,這個流程能降低噪音,並讓 AI 根據測試中收集的證據對結果進行排名。
“Codex Security 最初名為 Aardvark,去年在私募測試階段推出,”OpenAI 在 X 上寫道。公司補充:
“從那時起,我們大幅提升了訊號品質,降低了噪音,提高了嚴重性準確度,並減少了誤報,使得發現結果更貼近現實風險。”
開發者在審查 Codex Security 結果時,可以檢視支援資料、查看建議修補的程式碼差異,並透過 Github 工作流程整合修復方案。系統也允許團隊自訂威脅模型,調整攻擊面、儲存庫範圍和風險容忍度等參數。
雖然 Anthropic 的推出震動了部分資安界,但 OpenAI 的進入目前產生的反響多於市場恐慌。當 Claude Code Security 於 2 月推出時,幾家資安股短暫下跌 5% 至 10%,包括 Crowdstrike 和 Palo Alto Networks 等公司,但在隨後的交易日大多回升。
當時,分析師表示,這次拋售可能反映出對 AI 工具是否能取代部分應用安全市場的焦慮。然而,許多研究人員認為,AI 工具更可能是補充現有安全平台,而非完全取代它們。
過去兩年,AI 輔助漏洞偵測快速進步,大型語言模型(LLMs)越來越多參與資安研究任務,如 Capture-the-Flag 比賽和自動漏洞發現。這些能力能幫助防禦者更快識別軟體弱點,但也引發攻擊者可能利用類似系統的擔憂。
為應對這些風險,OpenAI 於 2 月 5 日啟動了“Cyber 信任存取”計畫,為經過審核的安全研究人員提供受控存取先進模型進行防禦研究。Anthropic 也透過與太平洋西北國家實驗室等機構合作,以及內部紅隊計畫,採取類似策略。
AI 安全代理的出現標誌著許多研究人員所稱的“代理式資安”轉變,即自主系統持續分析、測試和修復軟體漏洞。如果成功,這些工具能縮短漏洞發現與修補部署之間的時間——這是現代軟體安全的最大弱點之一。
對開發者和安全團隊來說,這個時機不容忽視。AI 不再只是撰寫程式碼——它現在也在審核、破解並修復,且常在同一工作流程中完成。
隨著 OpenAI 和 Anthropic 現在正面競爭,下一波資安工具可能不再是傳統掃描器,而是永不眠、永不抱怨、理想情況下能在駭客之前捕捉到漏洞的 AI 代理。