OpenAI e Paradigm criaram o EVMbench a partir de 120 vulnerabilidades reais de auditoria.
Os testes de benchmark avaliam a IA nos modos de deteção, correção e exploração usando ambientes sandboxed de EVM.
O GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração, superando os resultados anteriores do GPT-5.
A OpenAI, em colaboração com a Paradigm, revelou um novo benchmark para testar o desempenho da IA na segurança de contratos inteligentes na Ethereum. O lançamento, anunciado esta semana, apresentou o EVMbench como uma forma de medir como os agentes de IA detectam, corrigem e exploram falhas nos contratos. O esforço visa riscos crescentes, uma vez que contratos inteligentes asseguram mais de 100 mil milhões de dólares em ativos cripto em redes EVM.
Segundo a OpenAI, o EVMbench baseia-se em 120 vulnerabilidades de alta gravidade identificadas em 40 auditorias profissionais de contratos inteligentes. Notavelmente, muitas dessas questões tiveram origem em competições abertas de auditoria, incluindo a Code4rena. O benchmark foca em bugs reais, em vez de exemplos sintéticos.
Além disso, a OpenAI afirmou que o conjunto de dados inclui cenários ligados ao trabalho de segurança na cadeia Tempo. A Tempo funciona como uma rede Layer-1 focada em pagamentos, construída para transferências de stablecoins. Por isso, esses casos introduzem riscos de lógica de pagamento no ambiente do benchmark.
Para suportar testes realistas, os engenheiros reutilizaram scripts de provas de conceito de exploração sempre que disponíveis. No entanto, construíram manualmente componentes ausentes quando a documentação era incompleta. A OpenAI afirmou que preservou a explorabilidade, garantindo que as correções pudessem ser compiladas corretamente.
O EVMbench avalia os agentes nos modos de deteção, correção e exploração. No modo de deteção, os agentes escaneiam repositórios e recebem pontuações com base na recuperação de vulnerabilidades confirmadas. No modo de correção, os agentes devem corrigir falhas preservando o comportamento original do contrato.
Já o modo de exploração simula ataques completos de drenagem de fundos dentro de uma blockchain sandbox. A OpenAI afirmou que os avaliadores confirmam os resultados através de replay de transações e verificações do estado na cadeia. Para garantir consistência, a empresa criou uma ferramenta em Rust para implantações determinísticas.
Os testes de exploração são realizados num ambiente local Anvil, não em redes ao vivo. A OpenAI destacou que todas as vulnerabilidades são históricas e de conhecimento público. Além disso, a ferramenta restringe chamadas RPC inseguras para reduzir abusos.
Nos resultados reportados, o GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração. Em comparação, o GPT-5 atingiu 31,9%, apesar de ter sido lançado meses antes. No entanto, a OpenAI afirmou que a cobertura de deteção e correção ainda está incompleta.
Juntamente com o EVMbench, a OpenAI confirmou uma contratação importante. Peter Steinberger, fundador da OpenClaw, juntou-se à empresa para trabalhar no desenvolvimento de agentes. Sam Altman confirmou a mudança na X, destacando que Steinberger liderará projetos de agentes pessoais de próxima geração.
Related Articles
Gate lança a nova Gate Card, com cashback e sistema de níveis totalmente atualizados
Revendedor da Lamborghini nos EUA aceita pagamentos em Ethereum, ETH amplia cenários de consumo de carros de luxo
Fila de validadores do Ethereum atinge recorde histórico, grandes investidores optam por staking em vez de vender
Conflito no Médio Oriente impacta os mercados acionistas asiáticos, o Bitcoin mantém-se acima de 67.000 dólares, Ethereum e Solana sob pressão, recuam
Ontem, o fluxo líquido de ETF de Bitcoin à vista nos EUA foi de 225 milhões de dólares, enquanto o ETF de Ethereum teve uma saída líquida de 10,8 milhões de dólares