OpenAI lanza un sistema de evaluación de seguridad para la seguridad de tokens criptográficos y contratos inteligentes

CoinsProbe

2026-02-27 20:31:32

ETH-2,35%

DEFI-10,75%

Puntos clave

OpenAI ha lanzado EVMbench, un nuevo sistema de evaluación desarrollado junto con Paradigm para probar cómo los modelos de IA avanzados detectan, corrigen y explotan vulnerabilidades en los contratos inteligentes de Ethereum.
Los primeros resultados revelan una “Brecha de Explotación”, con los modelos más avanzados actualmente mejor en ejecutar ataques que en auditar o corregir fallas de manera integral — destacando tanto el rápido progreso de la IA como los riesgos emergentes.
EVMbench podría redefinir los estándares de seguridad en criptomonedas, permitiendo auditorías continuas impulsadas por IA para equipos DeFi y brindando garantías de nivel institucional a medida que miles de millones en activos se mueven en la cadena.

En una convergencia importante entre Inteligencia Artificial y tecnología blockchain, OpenAI ha lanzado oficialmente EVMbench. Desarrollado en asociación estratégica con el gigante de inversión en criptomonedas Paradigm, este sistema de evaluación está diseñado para probar rigurosamente cómo los agentes de IA identifican, explotan y remediar vulnerabilidades en el ecosistema de la Máquina Virtual de Ethereum (EVM).

Con más de $100 mil millones en activos criptográficos de código abierto actualmente asegurados por contratos inteligentes, las apuestas nunca han sido tan altas. EVMbench representa un cambio proactivo hacia el uso de “modelos frontera” para defender las finanzas descentralizadas (DeFi) de amenazas cibernéticas cada vez más sofisticadas.

Fuente: openai

Los Tres Pilares de EVMbench

EVMbench va más allá del análisis de código estático evaluando a los agentes de IA en tres modos operativos de alto riesgo. Este ciclo de “Detectar-Corregir-Explotar” imita el flujo de trabajo del mundo real de un investigador de seguridad de élite.

1. Modo Detectar (El Auditor): Los agentes escanean repositorios complejos para descubrir fallas ocultas. El éxito se mide por la “Recuperación”—la capacidad de encontrar problemas “verdaderos”—y las recompensas simuladas de bug bounty.
2. Modo Corregir (El Ingeniero): Una vez encontrada una falla, el agente debe reescribir el código. La evaluación usa suites de pruebas automatizadas para asegurar que la corrección soluciona la vulnerabilidad sin romper la funcionalidad original del contrato.
3. Modo Explotar (El Adversario): En un entorno seguro y aislado, un sandbox Anvil, los agentes intentan ejecutar ataques de extremo a extremo para drenar fondos. Esto mide la capacidad del agente para razonar ofensivamente y “encadenar” pequeñas fallas en una brecha catastrófica.

Fuente: openai

Dentro del Conjunto de Datos: Riesgos del Mundo Real

EVMbench no se basa en rompecabezas teóricos. Está construido sobre una biblioteca curada de 120 vulnerabilidades de alta gravedad extraídas de 40 auditorías profesionales. Gran parte de los datos proviene de competencias de auditoría en el mundo real (como Code4rena) y de procesos internos de seguridad en la blockchain Tempo de Paradigm.

Al centrarse en contratos “orientados a pagos”, la evaluación asegura que los modelos de IA sean probados en código que maneja miles de millones en capital líquido.

Resultados de la Evaluación: El Auge de GPT-5.3-Codex

Las pruebas internas de OpenAI han revelado una aceleración sorprendente en la capacidad de la IA. En solo unos meses, los modelos de élite han evolucionado desde tener dificultades con lógica básica hasta ejecutar exploits complejos de múltiples pasos.

La “Brecha de Explotación”: Curiosamente, los agentes actualmente rinden mucho mejor en explotar (72.2%) que en corregir o detectar. Los investigadores de OpenAI señalaron que los agentes sobresalen cuando se les da un objetivo explícito, como “drenar los fondos”, pero necesitan un razonamiento más refinado para manejar tareas matizadas y de “larga cola” como auditorías exhaustivas.

Fuente: Openai

Por qué importa: Cambios en la seguridad “Desde la izquierda”

Para el ecosistema cripto en general, EVMbench es más que una tarjeta de puntuación; es un acelerador para el desarrollo de “Seguridad-Desde-la-Izquierda”—integrando auditorías de élite directamente en el proceso de codificación en lugar de esperar una auditoría post-despliegue.

Seguridad Democratizada: Los pequeños equipos DeFi que no pueden costear una auditoría manual de $200,000 pueden usar agentes de IA certificados por EVMbench para revisiones continuas y de alta fidelidad del código.
Preparación Institucional: A medida que gigantes tradicionales como Goldman Sachs y Franklin Templeton migran a la cadena, requieren el “Estándar de Oro” en gobernanza de IA que proporciona un benchmark estandarizado.
El Desafío de Doble Uso: Al hacer público el benchmark, OpenAI y Paradigm brindan a los “buenos” las herramientas para medir y superar a los “malos”, manteniendo un marco de “Acceso Confiable para Ciberseguridad” para monitorear riesgos emergentes.

Mirando hacia el futuro

Aunque EVMbench es un paso revolucionario, actualmente está limitado a entornos deterministas y sandbox. Se espera que futuras versiones incorporen dependencias multi-cadena y consideraciones de MEV (Valor Máximo Extraíble) para simular mejor el “Bosque Oscuro” de la red principal de Ethereum en vivo.

A medida que los agentes de IA pasen de “escribir código” a “asegurar economías,” EVMbench se posiciona como la referencia definitiva para la próxima generación de finanzas sin confianza.

Aviso legal: Las opiniones y análisis presentados en este artículo son solo con fines informativos y reflejan la perspectiva del autor, no asesoramiento financiero. Los patrones técnicos e indicadores discutidos están sujetos a la volatilidad del mercado y pueden o no producir los resultados anticipados. Se recomienda a los inversores ejercer cautela, realizar investigaciones independientes y tomar decisiones alineadas con su tolerancia al riesgo individual.

Sobre el autor: Nilesh Hembade es fundador y autor principal de Coinsprobe, con más de 5 años de experiencia en la industria de criptomonedas y blockchain. Desde el lanzamiento de Coinsprobe en 2023, ha estado proporcionando análisis diarios basados en investigación, datos en cadena y análisis técnico.

Ver originales

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios