OpenAI e Paradigm lançam o EVMbench para a segurança do Ethereum

ETH-1,36%
  • OpenAI e Paradigm criaram o EVMbench a partir de 120 vulnerabilidades reais de auditoria.

  • Os testes de benchmark avaliam a IA nos modos de deteção, correção e exploração usando ambientes sandboxed de EVM.

  • O GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração, superando os resultados anteriores do GPT-5.

A OpenAI, em colaboração com a Paradigm, revelou um novo benchmark para testar o desempenho da IA na segurança de contratos inteligentes na Ethereum. O lançamento, anunciado esta semana, apresentou o EVMbench como uma forma de medir como os agentes de IA detectam, corrigem e exploram falhas nos contratos. O esforço visa riscos crescentes, uma vez que contratos inteligentes asseguram mais de 100 mil milhões de dólares em ativos cripto em redes EVM.

Benchmark Construído a Partir de Falhas Reais de Auditoria

Segundo a OpenAI, o EVMbench baseia-se em 120 vulnerabilidades de alta gravidade identificadas em 40 auditorias profissionais de contratos inteligentes. Notavelmente, muitas dessas questões tiveram origem em competições abertas de auditoria, incluindo a Code4rena. O benchmark foca em bugs reais, em vez de exemplos sintéticos.

Além disso, a OpenAI afirmou que o conjunto de dados inclui cenários ligados ao trabalho de segurança na cadeia Tempo. A Tempo funciona como uma rede Layer-1 focada em pagamentos, construída para transferências de stablecoins. Por isso, esses casos introduzem riscos de lógica de pagamento no ambiente do benchmark.

Para suportar testes realistas, os engenheiros reutilizaram scripts de provas de conceito de exploração sempre que disponíveis. No entanto, construíram manualmente componentes ausentes quando a documentação era incompleta. A OpenAI afirmou que preservou a explorabilidade, garantindo que as correções pudessem ser compiladas corretamente.

Três Modos de Teste Avaliam Agentes de IA

O EVMbench avalia os agentes nos modos de deteção, correção e exploração. No modo de deteção, os agentes escaneiam repositórios e recebem pontuações com base na recuperação de vulnerabilidades confirmadas. No modo de correção, os agentes devem corrigir falhas preservando o comportamento original do contrato.

Já o modo de exploração simula ataques completos de drenagem de fundos dentro de uma blockchain sandbox. A OpenAI afirmou que os avaliadores confirmam os resultados através de replay de transações e verificações do estado na cadeia. Para garantir consistência, a empresa criou uma ferramenta em Rust para implantações determinísticas.

Os testes de exploração são realizados num ambiente local Anvil, não em redes ao vivo. A OpenAI destacou que todas as vulnerabilidades são históricas e de conhecimento público. Além disso, a ferramenta restringe chamadas RPC inseguras para reduzir abusos.

Resultados e Expansão da Equipa

Nos resultados reportados, o GPT-5.3-Codex obteve uma pontuação de 72,2% no modo de exploração. Em comparação, o GPT-5 atingiu 31,9%, apesar de ter sido lançado meses antes. No entanto, a OpenAI afirmou que a cobertura de deteção e correção ainda está incompleta.

Juntamente com o EVMbench, a OpenAI confirmou uma contratação importante. Peter Steinberger, fundador da OpenClaw, juntou-se à empresa para trabalhar no desenvolvimento de agentes. Sam Altman confirmou a mudança na X, destacando que Steinberger liderará projetos de agentes pessoais de próxima geração.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Gate lança a nova Gate Card, com cashback e sistema de níveis totalmente atualizados

A Gate lançou oficialmente a Gate Card, oferecendo até 5% de cashback em compras, suportando várias criptomoedas, com um sistema de níveis de "dupla via" e limites elevados de consumo, com o objetivo de aumentar a retenção de utilizadores e a aplicação de ativos criptográficos na economia real.

GateNews12m atrás

Revendedor da Lamborghini nos EUA aceita pagamentos em Ethereum, ETH amplia cenários de consumo de carros de luxo

Vários concessionários da Lamborghini nos Estados Unidos começaram a aceitar Ethereum como forma de pagamento na compra de veículos, demonstrando a expansão dos pagamentos em ativos criptográficos para o segmento de consumo de luxo offline. Os concessionários processam as transações por meio de pagamentos em criptomoedas, evitando o risco de volatilidade de preços, impulsionando a integração gradual dos ativos digitais na economia real. Apesar de opiniões divergentes, cada vez mais marcas tentam aceitar pagamentos em criptomoedas, demonstrando que os ativos digitais estão a estabelecer novos cenários de pagamento no comércio mainstream.

GateNews13m atrás

Fila de validadores do Ethereum atinge recorde histórico, grandes investidores optam por staking em vez de vender

Atualmente, cerca de 3,4 milhões de ETH estão à espera de se juntar ao conjunto de validadores do Ethereum, com um tempo de espera de 60 dias. A procura provém principalmente de grandes empresas e exchanges, que obtêm rendimentos estáveis através do staking. Esta tendência indica uma preferência dos investidores institucionais por holdings de longo prazo, relacionada ao aumento da confiança no mercado.

MarketWhisper1h atrás

Conflito no Médio Oriente impacta os mercados acionistas asiáticos, o Bitcoin mantém-se acima de 67.000 dólares, Ethereum e Solana sob pressão, recuam

A tensão geopolítica no Médio Oriente continua, aumentando o sentimento de aversão ao risco nos mercados financeiros asiáticos, levando a uma queda significativa nas principais bolsas. O Bitcoin caiu ligeiramente, mas permanece numa faixa crucial, com o mercado atento ao fluxo de fundos institucionais e ETF. Ethereum, Solana e outras moedas principais recuaram, indicando uma contração na preferência pelo risco. A incerteza no ambiente macroeconómico e a volatilidade no mercado de energia aumentaram a pressão sobre o mercado.

GateNews1h atrás

Ontem, o fluxo líquido de ETF de Bitcoin à vista nos EUA foi de 225 milhões de dólares, enquanto o ETF de Ethereum teve uma saída líquida de 10,8 milhões de dólares

4 de março, o fluxo líquido de entrada de ETF de Bitcoin à vista nos EUA atingiu 225,2 milhões de dólares, sendo que o maior fluxo de entrada foi para o iBIT da BlackRock, enquanto o FBT da Fidelity teve uma saída maior; o ETF de Ethereum à vista teve um fluxo líquido de saída de 10,8 milhões de dólares, sendo que o FETH da Fidelity teve a maior saída.

GateNews1h atrás
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)