OpenAI 将AI代理相互对抗以进行智能合约的红队测试

Crypto Breaking

2026-02-20 01:35:24

OpenAI推出了一个旨在衡量AI代理在检测、缓解甚至利用加密智能合约中的安全漏洞方面的有效性的基准测试框架。该项目名为“EVMbench：评估AI代理在智能合约安全中的表现”，由Paradigm和OtterSec两家在区块链安全和投资领域具有深厚经验的机构合作发布。研究评估了AI代理在40份智能合约审计中筛选出的120个潜在弱点上的表现，旨在量化其检测和修补能力，以及在受控环境中这些代理的理论利用潜力。

主要内容

EVMbench测试AI代理应对来自40份智能合约审计的120个漏洞，重点关注源自开源审计竞赛的漏洞。

在测试的模型中，Anthropic的Claude Opus 4.6以平均检测奖励37824美元领先，其次是OpenAI的OC-GPT-5.2，奖励为31623美元，以及谷歌的Gemini 3 Pro，奖励为25112美元。

OpenAI将该基准框架视为衡量AI在“具有经济意义的环境”中的表现的一步，而不仅仅是玩具任务，强调了对加密安全领域攻击者和防御者的实际影响。

研究人员指出，智能合约管理着数十亿美元的资产，凸显了AI驱动工具在攻防活动中的战略价值。

行业观察人士将这些发展与关于AI驱动支付和稳定币在日常交易中作用的更广泛讨论联系起来，主要高管预测未来几年代理使用将不断增长。

此类工作的背景由2025年的加密安全事件数据所强调，数据显示攻击者通过漏洞和攻击持续转移资金，金额约为34亿美元，凸显了改进工具和更快、更可靠修补机制的紧迫性。EVMbench框架部分旨在衡量AI代理是否能在大规模防御能力中发挥实质性作用，减少被利用的机会，加快威胁缓解。

为了构建基准，研究人员分析了来自40份智能合约审计的120个经过筛选的漏洞，其中许多弱点源自开源审计挑战。OpenAI认为，该基准将有助于追踪AI在识别和缓解合约层面弱点方面的进展，提供一种标准化的方式来比较未来不断演进的AI模型。研究还提供了一个视角，展示AI如何应用于规范化风险评估，覆盖广泛的智能合约架构，而非仅关注孤立案例。

智能合约不是为人类设计的：Dragonfly

在X平台上的一篇同期讨论中，Dragonfly的合伙人哈西布·库雷希（Haseeb Qureshi）指出，加密货币未能取代财产权和传统合同的承诺，并非因为技术失败，而是因为其从未以人类直觉为设计出发点。他强调，在存在提款钱包和其他攻击向量的环境中签署大额交易的持续恐惧，与传统银行转账的相对顺畅体验形成鲜明对比。

库雷希认为，下一阶段的加密交易可能由AI中介的自动驾驶钱包实现。这类钱包将监控风险、管理复杂操作，并能自主应对威胁，可能会减少当前大额转账中的摩擦和恐惧感。

“当其补充技术终于到位时，相关技术往往会迅速落地。GPS等待智能手机，TCP/IP等待浏览器。对于加密货币，我们或许刚刚找到了AI代理。”

这篇讨论的核心观点是，AI代理可能在改变人们与加密货币的交互方式中扮演关键角色——从手动、易出错的交易转向自动化、风险感知的流程，并随着采用率的提高而扩展。随着AI代理在处理安全问题方面展现出更强的能力，用户在去中心化金融（DeFi）中的可靠性和韧性可能会得到改善，即使底层技术仍在不断成熟。

接下来要关注的内容

完整的EVMbench数据集在不同AI模型和架构中的发布与独立复现。

审计员、交易所和DeFi项目更广泛采用AI辅助审计工作，以增强安全防护。

关于代理钱包和自主支付流程的探索，包括AI管理资产的监管和合规考虑。

随着新版本的推出，后续基准测试将比较更多AI系统，追踪检测准确率和修补速度的提升。

来源与验证

OpenAI：EVMbench：评估AI代理在智能合约安全中的表现 — PDF：https://cdn.openai.com/evmbench/evmbench.pdf

OpenAI：介绍EVMbench — https://openai.com/index/introducing-evmbench/

2025年加密安全损失（报道覆盖）：https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks

Dragonfly：哈西布·库雷希关于AI与加密用户体验（X帖子）：https://x.com/hosseeb/status/2024136762424185208

中国的AI领导地位与加密影响（分析）：https://cointelegraph.com/news/china-ai-lead-future

AI Eye — IronClaw与Polymarket中的AI机器人发展：https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

关键数据与后续步骤

EVMbench研究显示，大型语言模型及相关AI代理开始在智能合约安全领域发挥实质性作用，不同模型之间存在明显差异。Claude Opus 4.6在平均检测奖励上的领先表明，某些架构在识别和缓解复杂合约逻辑中的漏洞方面可能更为擅长，而其他模型则落后，展现出一系列能力，研究人员可能会继续优化。项目中多家行业合作伙伴的加入，彰显了共识：AI驱动的安全和自动化风险管理在去中心化环境中变得日益重要。

随着技术的发展，观察者将关注AI代理从检测到修复的转变速度，以及它们在实际系统中是否能可靠运行而不引入新风险。关于AI钱包和自主支付的讨论，涉及安全治理、用户授权和监管合规等更广泛的问题。如果OpenAI及其合作伙伴的预期持续，AI辅助工具可能成为未来加密基础设施的核心组成部分，深刻改变风险评估和用户体验。下一轮基准测试和实际部署将帮助评估这一愿景的实现速度及其伴随的安全措施。

本文最初发表在Crypto Breaking News，标题为“OpenAI将AI代理相互对抗以强化智能合约的安全性”——您的加密新闻、比特币新闻和区块链动态的可信来源。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论