OpenAI y Paradigm crearon EVMbench a partir de 120 vulnerabilidades reales detectadas en auditorías.
Las pruebas de referencia evalúan a la IA en modos de detección, parcheo y explotación utilizando entornos sandbox de EVM.
GPT-5.3-Codex obtuvo una puntuación del 72,2 % en modo de explotación, superando los resultados anteriores de GPT-5.
OpenAI, en colaboración con Paradigm, presentó un nuevo estándar para evaluar el rendimiento de la IA en la seguridad de contratos inteligentes en Ethereum. El lanzamiento, anunciado esta semana, introdujo EVMbench como una forma de medir cómo los agentes de IA detectan, corrigen y explotan fallos en los contratos. El esfuerzo responde a los riesgos crecientes, ya que los contratos inteligentes aseguran más de 100 mil millones de dólares en activos criptográficos en redes EVM.
Según OpenAI, EVMbench se basa en 120 vulnerabilidades de alta gravedad identificadas en 40 auditorías profesionales de contratos inteligentes. Es importante destacar que muchos de estos problemas provienen de concursos de auditoría abiertos, como Code4rena. El estándar se centra en errores reales en lugar de ejemplos sintéticos.
Además, OpenAI indicó que el conjunto de datos incluye escenarios relacionados con trabajos de seguridad en la cadena Tempo. Tempo funciona como una red Layer-1 enfocada en pagos, diseñada para transferencias de stablecoins. Debido a esto, estos casos introducen riesgos de lógica de pagos en el entorno de prueba.
Para apoyar pruebas realistas, los ingenieros reutilizaron scripts de prueba de concepto para exploits cuando estaban disponibles. Sin embargo, construyeron manualmente los componentes faltantes cuando la documentación era incompleta. OpenAI afirmó que se preservó la capacidad de explotación mientras se aseguraba que los parches pudieran compilarse correctamente.
EVMbench evalúa a los agentes en modos de detección, parcheo y explotación. En modo de detección, los agentes escanean repositorios y reciben puntuaciones basadas en la recuperación de vulnerabilidades confirmadas. En modo de parcheo, los agentes deben corregir fallos manteniendo el comportamiento original del contrato.
El modo de explotación, sin embargo, simula ataques completos de drenaje de fondos en una blockchain sandbox. OpenAI indicó que los evaluadores confirman los resultados mediante la reproducción de transacciones y verificaciones del estado en cadena. Para garantizar la consistencia, la compañía desarrolló una herramienta en Rust para despliegues deterministas.
Las pruebas de explotación se ejecutan en un entorno local Anvil, no en redes en vivo. OpenAI señaló que todas las vulnerabilidades son históricas y de conocimiento público. Además, la herramienta restringe llamadas RPC inseguras para reducir el uso indebido.
En los resultados reportados, GPT-5.3-Codex logró una puntuación del 72,2 % en modo de explotación. En comparación, GPT-5 alcanzó un 31,9 %, a pesar de haberse lanzado meses antes. Sin embargo, OpenAI afirmó que la cobertura en detección y parcheo aún no está completa.
Junto con EVMbench, OpenAI confirmó una incorporación clave. Peter Steinberger, fundador de OpenClaw, se unió a la empresa para trabajar en el desarrollo de agentes. Sam Altman confirmó el movimiento en X, señalando que Steinberger liderará proyectos de agentes personales de próxima generación.
Artículos relacionados
El concesionario de Lamborghini en Estados Unidos acepta pagos en Ethereum, ETH abre un escenario de consumo de autos de lujo
La fila de validadores de Ethereum alcanza un máximo histórico, los grandes inversores optan por apostar en lugar de vender
El conflicto en Oriente Medio impacta los mercados bursátiles asiáticos, Bitcoin mantiene el nivel de 67,000 dólares, Ethereum y Solana enfrentan presión y retroceden
Ayer, la entrada neta en los ETF de Bitcoin en EE. UU. fue de 225 millones de dólares, y los ETF de Ethereum tuvieron una salida neta de 10,8 millones de dólares.
Vitalik Buterin insta a Ethereum a ampliar su misión más allá de las finanzas