OpenAI 將 AI 代理相互對抗，以進行智能合約的紅隊測試

Crypto Breaking

2026-02-19 01:30:25

OpenAI 公布了一套旨在衡量 AI 代理在偵測、緩解甚至利用加密智能合約中的安全漏洞方面效能的基準測試框架。該專案名為「EVMbench：評估 AI 代理在智能合約安全性上的表現」，與 Paradigm 和 OtterSec 兩個在區塊鏈安全與投資領域具有深厚經驗的組織合作推出。研究評估 AI 代理在經過篩選的 120 個潛在弱點（來自 40 次智能合約審計）中的表現，旨在量化其不僅在偵測與修補能力上的表現，也包括在受控環境中理論上的利用潛力。

重點摘要

EVMbench 將 AI 代理針對來自開源審計競賽的 120 個漏洞進行測試，強調漏洞來源於公開的審計比賽。

在測試模型中，Anthropic 的 Claude Opus 4.6 以平均偵測獎金 37,824 美元領先，其次是 OpenAI 的 OC-GPT-5.2（31,623 美元）與 Google 的 Gemini 3 Pro（25,112 美元）。

OpenAI 將此基準框架視為衡量 AI 在「具有經濟意義的環境」中表現的步伐，而非僅限於玩具任務，強調對攻擊者與防禦者在加密安全領域的實際影響。

研究人員指出，智能合約管理著數十億美元資產，凸顯 AI 驅動工具在攻防活動中的策略價值。

業界觀察者將這些發展與更廣泛的討論連結，包括 AI 驅動的支付與穩定幣在日常交易中的角色，主要高層預測未來幾年代理用將持續擴大。

此類工作的背景由 2025 年的加密安全事件數據所凸顯，顯示資金仍持續流入漏洞與攻擊，強化對強大 AI 審計與防禦機制的需求。OpenAI 的 PDF 附帶了 AI 代理的獎勵詳情，並描述了評估方法與模擬真實智能合約風險的場景。作者強調，雖然 AI 代理已進化到自動化多種例行任務，但在「具有經濟意義的環境」中評估其表現，對理解其在實際系統中的壓力下的表現至關重要。

「智能合約管理著數十億美元資產，AI 代理可能對攻防雙方都具有變革性影響。」

OpenAI 預計，代理技術將擴展支付與結算範圍，包括用於自動化流程的穩定幣。關於 AI 支付的討論不僅限於安全測試，更涉及自主系統如何參與日常金融活動。公司預測，代理支付可能變得更普遍，將 AI 能力落實於與日常消費者交易相關的實用案例中。

與此同時，Circle CEO Jeremy Allaire 公開預測，未來五年內數十億 AI 代理將使用穩定幣進行日常支付。這一觀點與加密圈的反覆出現的主題相呼應：加密貨幣有潛力成為 AI 代理的本地貨幣，這一說法已引起業界領袖與投資者的廣泛關注。儘管此類預測仍屬推測，但趨勢明顯——AI 自動化正從實驗室走向交易層，可能重塑價值在網絡中的流動方式。

該研究正值加密安全仍是投資者面臨的重要風險因素之際。2025 年針對加密資金的攻擊事件中，攻擊者竊取約 34 億美元，凸顯出改進工具與更快、更可靠修補機制的迫切需求。EVMbench 框架部分旨在衡量 AI 代理是否能在大規模防禦中做出實質貢獻，降低被利用的機會，加速威脅緩解。

為建立此基準，研究人員從 40 次智能合約審計中篩選出 120 個弱點，許多漏洞追溯自開源審計挑戰。OpenAI 表示，此基準將有助於追蹤 AI 在大規模識別與緩解合約層面弱點的進展，提供一個標準化的比較未來 AI 模型演進的方式。研究亦展現 AI 如何應用於標準化風險評估，涵蓋各種智能合約架構，而非僅聚焦於孤立案例。

智能合約並非為人類設計：Dragonfly

在一則同步於 X（前 Twitter）的討論串中，Dragonfly 合夥人 Haseeb Qureshi 指出，加密貨幣未能取代財產權與傳統合約，並非因技術失敗，而是因為其從未以人類直覺為設計核心。他強調，簽署大額交易時的恐懼感持續存在，原因在於攻擊向量如提款錢包等威脅始終存在，與傳統銀行轉帳的較順暢體驗形成鮮明對比。

Qureshi 認為，下一階段的加密交易可能由 AI 中介的自駕錢包實現。這些錢包將監控風險、管理複雜操作，並能自主回應威脅，降低今日大額轉帳所帶來的摩擦與恐懼。

「一項技術常在其補充技術出現後才真正落地。GPS 必須等待智慧型手機，TCP/IP 必須等待瀏覽器。對於加密貨幣，我們或許已找到答案——AI 代理。」

這個討論串的核心是，AI 代理可能在改變人們與加密貨幣的互動方式——從手動、易出錯的交易，轉向自動化、風險感知的流程，並隨著採用率提升而擴展。隨著 AI 代理在安全性處理方面展現更多能力，用戶或將在去中心化金融的工作流程中看到更高的可靠性與韌性，即使底層技術仍在成熟。

接下來值得關注的重點

完整的 EVMbench 資料集在不同 AI 模型與架構中的發布與獨立驗證。

審計機構、交易所與 DeFi 項目更廣泛採用 AI 輔助審計流程，以強化安全防護。

探索代理錢包與自主支付流程，包括 AI 管理資產的監管與合規考量。

隨著新版本 AI 系統的推出，進行後續基準測試，追蹤偵測準確率與修補速度的提升。

資料來源與驗證

OpenAI：EVMbench：評估 AI 代理在智能合約安全性上的表現 — PDF：https://cdn.openai.com/evmbench/evmbench.pdf

OpenAI：推出 EVMbench — https://openai.com/index/introducing-evmbench/

2025 年加密安全損失（報導範圍）：https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks

Dragonfly：Haseeb Qureshi 談 AI 與加密用戶體驗（X 貼文）：https://x.com/hosseeb/status/2024136762424185208

中國 AI 領先與加密影響（分析）：https://cointelegraph.com/news/china-ai-lead-future

AI Eye — IronClaw 與 Polymarket AI 機器人發展報導：https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

重點數據與未來展望

EVMbench 研究顯示，大型語言模型與相關 AI 代理已開始在智能合約安全領域展現實質作業能力，不同模型之間存在明顯差異。Claude Opus 4.6 在平均偵測獎金上的領先，暗示某些架構在識別與緩解複雜合約漏洞方面可能更具優勢，而其他模型則較為落後，展現出一個能力範圍，研究人員將持續優化。多家業界合作夥伴的加入，凸顯共識：AI 驅動的安全與自動化風險管理，將成為去中心化環境中不可或缺的一環。

隨著領域演進，觀察者將關注 AI 代理從偵測到修復的轉變速度，以及其在實際系統中的可靠性，是否能在不引入新風險的情況下穩定運作。關於 AI 錢包與自主支付的討論，牽涉到安全治理、用戶同意與監管合規等更廣泛議題。若 OpenAI 與合作夥伴的預測持續，AI 輔助工具或將成為未來加密基礎設施的核心部分，改變風險評估與用戶體驗。未來的基準測試與實地部署，將揭示這一願景的實現速度與必要的安全措施。

本文最初刊登於 Crypto Breaking News，標題為「OpenAI 對抗彼此的 AI 代理，進行智能合約紅隊測試」——您的加密新聞、比特幣新聞與區塊鏈更新的可信來源。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言