OpenAI 公布了一套旨在衡量 AI 代理在偵測、緩解甚至利用加密智能合約中的安全漏洞方面效能的基準測試框架。該專案名為「EVMbench:評估 AI 代理在智能合約安全性上的表現」,與 Paradigm 和 OtterSec 兩個在區塊鏈安全與投資領域具有深厚經驗的組織合作推出。研究評估 AI 代理在經過篩選的 120 個潛在弱點(來自 40 次智能合約審計)中的表現,旨在量化其不僅在偵測與修補能力上的表現,也包括在受控環境中理論上的利用潛力。
重點摘要
EVMbench 將 AI 代理針對來自開源審計競賽的 120 個漏洞進行測試,強調漏洞來源於公開的審計比賽。
在測試模型中,Anthropic 的 Claude Opus 4.6 以平均偵測獎金 37,824 美元領先,其次是 OpenAI 的 OC-GPT-5.2(31,623 美元)與 Google 的 Gemini 3 Pro(25,112 美元)。
OpenAI 將此基準框架視為衡量 AI 在「具有經濟意義的環境」中表現的步伐,而非僅限於玩具任務,強調對攻擊者與防禦者在加密安全領域的實際影響。
研究人員指出,智能合約管理著數十億美元資產,凸顯 AI 驅動工具在攻防活動中的策略價值。
業界觀察者將這些發展與更廣泛的討論連結,包括 AI 驅動的支付與穩定幣在日常交易中的角色,主要高層預測未來幾年代理用將持續擴大。
此類工作的背景由 2025 年的加密安全事件數據所凸顯,顯示資金仍持續流入漏洞與攻擊,強化對強大 AI 審計與防禦機制的需求。OpenAI 的 PDF 附帶了 AI 代理的獎勵詳情,並描述了評估方法與模擬真實智能合約風險的場景。作者強調,雖然 AI 代理已進化到自動化多種例行任務,但在「具有經濟意義的環境」中評估其表現,對理解其在實際系統中的壓力下的表現至關重要。
「智能合約管理著數十億美元資產,AI 代理可能對攻防雙方都具有變革性影響。」
OpenAI 預計,代理技術將擴展支付與結算範圍,包括用於自動化流程的穩定幣。關於 AI 支付的討論不僅限於安全測試,更涉及自主系統如何參與日常金融活動。公司預測,代理支付可能變得更普遍,將 AI 能力落實於與日常消費者交易相關的實用案例中。
與此同時,Circle CEO Jeremy Allaire 公開預測,未來五年內數十億 AI 代理將使用穩定幣進行日常支付。這一觀點與加密圈的反覆出現的主題相呼應:加密貨幣有潛力成為 AI 代理的本地貨幣,這一說法已引起業界領袖與投資者的廣泛關注。儘管此類預測仍屬推測,但趨勢明顯——AI 自動化正從實驗室走向交易層,可能重塑價值在網絡中的流動方式。
該研究正值加密安全仍是投資者面臨的重要風險因素之際。2025 年針對加密資金的攻擊事件中,攻擊者竊取約 34 億美元,凸顯出改進工具與更快、更可靠修補機制的迫切需求。EVMbench 框架部分旨在衡量 AI 代理是否能在大規模防禦中做出實質貢獻,降低被利用的機會,加速威脅緩解。
為建立此基準,研究人員從 40 次智能合約審計中篩選出 120 個弱點,許多漏洞追溯自開源審計挑戰。OpenAI 表示,此基準將有助於追蹤 AI 在大規模識別與緩解合約層面弱點的進展,提供一個標準化的比較未來 AI 模型演進的方式。研究亦展現 AI 如何應用於標準化風險評估,涵蓋各種智能合約架構,而非僅聚焦於孤立案例。
智能合約並非為人類設計:Dragonfly
在一則同步於 X(前 Twitter)的討論串中,Dragonfly 合夥人 Haseeb Qureshi 指出,加密貨幣未能取代財產權與傳統合約,並非因技術失敗,而是因為其從未以人類直覺為設計核心。他強調,簽署大額交易時的恐懼感持續存在,原因在於攻擊向量如提款錢包等威脅始終存在,與傳統銀行轉帳的較順暢體驗形成鮮明對比。
Qureshi 認為,下一階段的加密交易可能由 AI 中介的自駕錢包實現。這些錢包將監控風險、管理複雜操作,並能自主回應威脅,降低今日大額轉帳所帶來的摩擦與恐懼。
「一項技術常在其補充技術出現後才真正落地。GPS 必須等待智慧型手機,TCP/IP 必須等待瀏覽器。對於加密貨幣,我們或許已找到答案——AI 代理。」
這個討論串的核心是,AI 代理可能在改變人們與加密貨幣的互動方式——從手動、易出錯的交易,轉向自動化、風險感知的流程,並隨著採用率提升而擴展。隨著 AI 代理在安全性處理方面展現更多能力,用戶或將在去中心化金融的工作流程中看到更高的可靠性與韌性,即使底層技術仍在成熟。
接下來值得關注的重點
完整的 EVMbench 資料集在不同 AI 模型與架構中的發布與獨立驗證。
審計機構、交易所與 DeFi 項目更廣泛採用 AI 輔助審計流程,以強化安全防護。
探索代理錢包與自主支付流程,包括 AI 管理資產的監管與合規考量。
隨著新版本 AI 系統的推出,進行後續基準測試,追蹤偵測準確率與修補速度的提升。
資料來源與驗證
OpenAI:EVMbench:評估 AI 代理在智能合約安全性上的表現 — PDF:https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI:推出 EVMbench — https://openai.com/index/introducing-evmbench/
2025 年加密安全損失(報導範圍):https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly:Haseeb Qureshi 談 AI 與加密用戶體驗(X 貼文):https://x.com/hosseeb/status/2024136762424185208
中國 AI 領先與加密影響(分析):https://cointelegraph.com/news/china-ai-lead-future
AI Eye — IronClaw 與 Polymarket AI 機器人發展報導:https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
重點數據與未來展望
EVMbench 研究顯示,大型語言模型與相關 AI 代理已開始在智能合約安全領域展現實質作業能力,不同模型之間存在明顯差異。Claude Opus 4.6 在平均偵測獎金上的領先,暗示某些架構在識別與緩解複雜合約漏洞方面可能更具優勢,而其他模型則較為落後,展現出一個能力範圍,研究人員將持續優化。多家業界合作夥伴的加入,凸顯共識:AI 驅動的安全與自動化風險管理,將成為去中心化環境中不可或缺的一環。
隨著領域演進,觀察者將關注 AI 代理從偵測到修復的轉變速度,以及其在實際系統中的可靠性,是否能在不引入新風險的情況下穩定運作。關於 AI 錢包與自主支付的討論,牽涉到安全治理、用戶同意與監管合規等更廣泛議題。若 OpenAI 與合作夥伴的預測持續,AI 輔助工具或將成為未來加密基礎設施的核心部分,改變風險評估與用戶體驗。未來的基準測試與實地部署,將揭示這一願景的實現速度與必要的安全措施。
本文最初刊登於 Crypto Breaking News,標題為「OpenAI 對抗彼此的 AI 代理,進行智能合約紅隊測試」——您的加密新聞、比特幣新聞與區塊鏈更新的可信來源。