OpenAI 公布了一個旨在衡量 AI 代理在偵測、緩解甚至利用加密智能合約安全漏洞方面的效能的基準框架。該專案名為「EVMbench:評估 AI 代理在智能合約安全性上的表現」,與 Paradigm 和 OtterSec 兩個在區塊鏈安全與投資領域具有深厚經驗的組織合作推出。研究評估了 AI 代理在經過篩選的 120 個潛在弱點集,這些弱點來自 40 次智能合約審計,旨在量化其不僅在偵測與修補能力上的表現,也包括在受控環境中理論上的利用潛力。
重點摘要
EVMbench 將 AI 代理針對來自開源審計競賽的 40 次智能合約審計中挑選的 120 個漏洞進行測試,強調漏洞來源於開源審計比賽。
在測試模型中,Anthropic 的 Claude Opus 4.6 以平均偵測獎金 3 萬7,824 美元領先,其次是 OpenAI 的 OC-GPT-5.2,獲得 3 萬1,623 美元,Google 的 Gemini 3 Pro 則為 2 萬5,112 美元。
OpenAI 將此基準框架視為衡量 AI 在「具有經濟意義的環境」中表現的步驟,而非僅限於玩具任務,強調其對攻擊者與防禦者在加密安全領域的實際應用意義。
研究人員指出,智能合約管理著數十億美元資產,凸顯 AI 驅動工具在攻防活動中的策略價值。
業界觀察人士將這些發展與更廣泛的 AI 驅動支付與穩定幣在日常交易中的角色討論聯繫起來,主要高管預測未來幾年代理用將逐步擴大。
此類工作的背景由 2025 年的加密安全事件數據所凸顯,顯示資金仍持續流入漏洞與攻擊,強化對強大 AI 審計與防禦機制的需求。EVMbench 框架部分旨在衡量 AI 代理是否能在大規模上有效提升防禦能力,降低被利用的機會,加快威脅應對。
為建立此基準,研究人員從 40 次智能合約審計中篩選出 120 個弱點,許多漏洞追溯自開源審計挑戰。OpenAI 表示,此基準將有助於追蹤 AI 在大規模識別與緩解合約層級弱點方面的進展,提供一個標準化的比較未來 AI 模型演進的方式。研究亦展現 AI 如何應用於標準化風險評估,涵蓋各種智能合約架構,而非僅聚焦於孤立案例。
智能合約並非為人類設計:Dragonfly
在 X 平台上的一篇同期討論中,Dragonfly 合夥人 Haseeb Qureshi 表示,加密貨幣未能取代財產權與傳統合約,並非技術失敗,而是因為其從未以人類直覺為設計核心。他指出,簽署大額交易時的持續恐懼,源自於錢包被盜等攻擊向量,與傳統銀行轉帳的順暢體驗形成鮮明對比。
Qureshi 認為,下一階段的加密交易可能由 AI 中介的自動錢包實現。這些錢包將監控風險、管理複雜操作,並能自主回應威脅,降低大額轉帳的摩擦與恐懼。
「一項技術常在其補充技術出現後才真正落地。GPS 必須等待智慧型手機,TCP/IP 必須等待瀏覽器。對於加密貨幣,我們或許已找到答案——AI 代理。」
這個討論的核心是,AI 代理或將在改變人們與加密貨幣互動方式中扮演關鍵角色——從手動、易出錯的交易轉向自動化、風險感知的流程,並隨著採用率提升而擴展。隨著 AI 代理在安全性管理方面展現更多能力,用戶或能在去中心化金融(DeFi)流程中體驗到更高的可靠性與韌性,即使底層技術仍在成熟。
接下來值得關注的
完整 EVMbench 資料集在不同 AI 模型與架構中的發布與獨立驗證。
審計師、交易所與 DeFi 項目更廣泛採用 AI 輔助審計流程,以強化安全防護。
探索代理錢包與自主支付流程,包括 AI 管理資產的監管與合規議題。
隨著新版本推出,追蹤更多 AI 系統的基準測試,特別是在偵測準確率與修補速度上的改進。
資料來源與驗證
OpenAI:EVMbench:評估 AI 代理在智能合約安全性上的表現 — PDF:https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI:推出 EVMbench — https://openai.com/index/introducing-evmbench/
2025 年加密安全損失(報導範圍):https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly:Haseeb Qureshi 談 AI 與加密用戶體驗(X 貼文):https://x.com/hosseeb/status/2024136762424185208
中國 AI 領先與加密影響(分析):https://cointelegraph.com/news/china-ai-lead-future
AI Eye — IronClaw 與 Polymarket 中 AI 機器人發展:https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
重點數據與未來展望
EVMbench 研究顯示,大型語言模型與相關 AI 代理已開始在智能合約安全領域展現實質性工作能力,不同模型之間存在明顯差異。Claude Opus 4.6 在平均偵測獎金上的領先,暗示某些架構在識別與緩解複雜合約漏洞方面可能更具優勢,而其他模型則較為落後,展現出一個能力範圍,研究人員將持續優化。多家產業合作的加入,凸顯了 AI 驅動安全與自動化風險管理在去中心化環境中逐漸成為共識。
隨著領域演進,觀察者將關注 AI 代理從偵測到修復的轉變速度,以及這些代理在實際系統中是否能可靠運作而不引入新風險。關於 AI 錢包與自主支付的討論,牽涉到安全治理、用戶同意與監管合規等更廣泛議題。若 OpenAI 和其合作夥伴的預測持續,AI 輔助工具或將成為未來加密基礎建設的核心部分,改變風險評估與用戶體驗。下一輪基準測試與實際部署將揭示這一願景的實現速度與必要的安全措施。
本文最初刊登於 Crypto Breaking News,標題為「OpenAI 對抗彼此的 AI 代理,進行智能合約紅隊測試」——您的加密新聞、比特幣新聞與區塊鏈更新的可信來源。