OpenAI elimina EVMbench después del desastre del código Claude Vibe

LiveBTCNews
DEFI8,16%
WELL-2,78%
L1-1,72%
CODEX-0,4%

OpenAI lanza EVMbench para probar agentes de IA en seguridad de contratos inteligentes días después de que el código asistido por Claude Opus 4.6 provocara una explotación DeFi de 1.78 millones de dólares.

Los contratos inteligentes protegen más de 100 mil millones de dólares en activos criptográficos de código abierto. Esa cifra por sí sola debería explicar por qué el último movimiento de OpenAI está llamando la atención de manera seria. La compañía, en colaboración con la firma de inversión en criptomonedas Paradigm, lanzó EVMbench, un benchmark diseñado para evaluar qué tan bien detectan, explotan y corrigen vulnerabilidades de alta gravedad en contratos inteligentes.

El benchmark se basa en 120 vulnerabilidades seleccionadas de 40 auditorías. La mayoría proviene de competencias abiertas de auditoría de código. Lo que lo hace diferente es el alcance. EVMbench prueba tres modos de capacidad distintos: detectar, corregir y explotar, cada uno medido por separado y calificado mediante un sistema basado en Rust que reproduce transacciones en un entorno sandbox local. Sin redes en vivo involucradas.

La cifra que debería preocupar a todos

En modo explotación, GPT-5.3-Codex a través de Codex CLI obtuvo un puntaje del 72.2%. Hace seis meses, GPT-5 alcanzaba solo el 31.9% en la misma métrica. Esa diferencia no es pequeña. OpenAI confirmó las cifras en su anuncio oficial en X, presentando a EVMbench como una herramienta de medición y un llamado a la acción para la comunidad de seguridad.

Las puntuaciones en detección y corrección siguen siendo más bajas. Los agentes en modo detección a veces identifican una sola vulnerabilidad y luego se detienen. No examinan toda la base de código. En modo corrección, el desafío es mantener la funcionalidad completa del contrato mientras se elimina la falla. Ese equilibrio todavía presenta dificultades para los modelos.

Debe leer: Hack de seguridad en Trust Wallet: Cómo proteger tus activos

Un error de Oracle de 1.78 millones de dólares que nadie detectó

El contexto de todo esto importa. El investigador de seguridad evilcos señaló en X que el protocolo DeFi de préstamos Moonwell sufrió una pérdida de aproximadamente 1.78 millones de dólares. La causa fue un error en la configuración del Oracle. Una fórmula de alimentación de precios fue escrita incorrectamente, estableciendo el valor de cbETH en 1.12 dólares en lugar de aproximadamente 2,200 dólares.

Eso es un error de bajo nivel. Un auditor cuidadoso debería haberlo detectado. La solicitud de extracción en GitHub para la propuesta MIP-X43 mostró commits coautorados por Claude Opus 4.6, el modelo más avanzado y reciente de Anthropic en ese momento.

El auditor de contratos inteligentes pashov publicó en X que posiblemente fue el primer exploit vinculado a Solidity codificado con vibe. Se aseguró de señalar que los revisores humanos aún tienen la responsabilidad final. Un auditor de seguridad aprueba antes de que algo se implemente en la cadena. Pero algo en esa cadena se rompió.

Para qué está realmente diseñado EVMbench

El benchmark incluye escenarios de vulnerabilidad derivados de la auditoría de seguridad de la blockchain Tempo, una cadena de nivel 1 diseñada para pagos de stablecoins de alto rendimiento. Esa extensión lleva a EVMbench al código de contratos orientados a pagos, un área donde OpenAI espera que crezca la actividad de stablecoins con agentes.

Cada tarea de explotación se ejecuta en una instancia aislada de Anvil. Las transacciones se reproducen de manera determinista. La configuración de calificación restringe métodos RPC inseguros y fue sometida a pruebas internas para evitar que los agentes manipulen los resultados. Las vulnerabilidades utilizadas son históricas y están documentadas públicamente.

OpenAI también está comprometiendo 10 millones de dólares en créditos API para acelerar la defensa cibernética, priorizando software de código abierto e infraestructura crítica. Su agente de investigación de seguridad, Aardvark, está expandiéndose a una beta privada. La exploración gratuita de bases de código para proyectos de código abierto ampliamente utilizados forma parte de ese impulso.

La cuestión del vibe-coding con riesgos reales

La publicación de pashov en X planteó lo que muchos en el espacio DeFi habían estado evitando. Cuando la IA escribe código Solidity de producción y los humanos lo aprueban rápidamente, la capa de revisión se vuelve delgada. El incidente de Moonwell mostró exactamente cuán delgada puede ser esa capa.

OpenAI reconoció que la ciberseguridad es inherentemente de doble uso. Su respuesta se basa en evidencia. La capacitación en seguridad, la monitorización automatizada y los controles de acceso para capacidades avanzadas son parte de ello. Pero un puntaje de explotación del 72.2% en un benchmark público es un número que no pasa desapercibido.

El conjunto completo de tareas, herramientas y código de evaluación de EVMbench ahora es público. El objetivo es que los investigadores puedan seguir las capacidades cibernéticas de la IA a medida que crecen y construir defensas al mismo ritmo. La velocidad con la que eso suceda, si será suficiente, es una pregunta que todavía no tiene respuesta.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios