OpenAI lanza un sistema de evaluación de seguridad para la seguridad de tokens criptográficos y contratos inteligentes

CoinsProbe

2026-02-21 20:10:29

ETH5,66%

DEFI-3,67%

Puntos Clave

OpenAI ha lanzado EVMbench, un nuevo sistema de evaluación comparativa desarrollado junto con Paradigm para probar cómo los modelos de IA avanzados detectan, corrigen y explotan vulnerabilidades en los contratos inteligentes de Ethereum.
Los primeros resultados revelan una “Brecha de Explotación”, con los modelos más avanzados actualmente mejor en ejecutar ataques que en auditar o corregir de manera integral las fallas — destacando tanto el rápido progreso de la IA como los riesgos emergentes.
EVMbench podría redefinir los estándares de seguridad en criptomonedas, permitiendo auditorías continuas impulsadas por IA para equipos DeFi y proporcionando garantías de nivel institucional a medida que miles de millones en activos se mueven en la cadena.

En una convergencia importante entre Inteligencia Artificial y tecnología blockchain, OpenAI ha lanzado oficialmente EVMbench. Desarrollado en asociación estratégica con el gigante de inversión en criptomonedas Paradigm, este sistema de evaluación comparativa está diseñado para probar rigurosamente cómo los agentes de IA identifican, explotan y remediar vulnerabilidades dentro del ecosistema de la Máquina Virtual de Ethereum (EVM).

Con más de 100 mil millones de dólares en activos criptográficos de código abierto actualmente asegurados por contratos inteligentes, las apuestas nunca han sido tan altas. EVMbench representa un cambio proactivo hacia el uso de “modelos de frontera” para defender las finanzas descentralizadas (DeFi) de amenazas cibernéticas cada vez más sofisticadas.

_ Fuente: openai_

Los Tres Pilares de EVMbench

EVMbench va más allá del análisis estático de código evaluando a los agentes de IA en tres modos operativos de alto riesgo. Este ciclo de “Detectar-Corregir-Explotar” imita el flujo de trabajo del mundo real de un investigador de seguridad de élite.

1. Modo Detectar (El Auditor): Los agentes escanean repositorios complejos de código para descubrir fallas ocultas. El éxito se mide por la “Recuperación”—la capacidad de encontrar problemas “de verdad”—y las recompensas simuladas de bug bounty.
2. Modo Corregir (El Ingeniero): Una vez encontrada una falla, el agente debe reescribir el código. La evaluación usa suites de pruebas automatizadas para asegurar que la corrección soluciona la vulnerabilidad sin romper la funcionalidad original del contrato.
3. Modo Explotar (El Adversario): En un entorno seguro y aislado, en una sandbox Anvil, los agentes intentan ejecutar ataques de extremo a extremo para drenar fondos. Esto mide la capacidad del agente para razonar ofensivamente y “encadenar” pequeñas fallas en una brecha catastrófica.

_ Fuente: openai_

Dentro del Conjunto de Datos: Riesgos del Mundo Real

EVMbench no se basa en rompecabezas teóricos. Está construido sobre una biblioteca curada de 120 vulnerabilidades de alta gravedad extraídas de 40 auditorías profesionales. Gran parte de los datos proviene de competencias de auditoría en el mundo real (como Code4rena) y de procesos internos de seguridad en la blockchain Tempo de Paradigm.

Al centrarse en contratos “orientados a pagos”, la evaluación garantiza que los modelos de IA sean probados en código que maneja miles de millones en capital líquido.

Resultados de la Evaluación: El Auge de GPT-5.3-Codex

Las pruebas internas de OpenAI han revelado una aceleración sorprendente en la capacidad de la IA. En solo unos meses, los modelos de élite han evolucionado desde tener dificultades con lógica básica hasta ejecutar exploits complejos de múltiples pasos.

La “Brecha de Explotación”: Curiosamente, los agentes actualmente rinden mucho mejor en explotar (72.2%) que en corregir o detectar. Los investigadores de OpenAI señalaron que los agentes sobresalen cuando se les da un objetivo singular y explícito—como “drenar los fondos”—pero necesitan un razonamiento más refinado para manejar la tarea matizada y de “cola larga” de auditoría exhaustiva.

_ Fuente: Openai_

Por qué Importa: Cambiando la Seguridad “Hacia la Izquierda”

Para el ecosistema cripto en general, EVMbench es más que una tarjeta de puntuación; es un acelerador para el desarrollo de “Seguridad a la Izquierda”—integrando auditorías de élite directamente en el proceso de codificación en lugar de esperar a una auditoría post-despliegue.

Seguridad Democratizada: Los pequeños equipos DeFi que no pueden pagar una auditoría manual de 200 mil dólares pueden usar agentes de IA certificados por EVMbench para revisiones continuas y de alta fidelidad del código.
Preparación Institucional: A medida que gigantes tradicionales como Goldman Sachs y Franklin Templeton migran a la cadena, requieren el “Estándar de Oro” en gobernanza de IA que proporciona una evaluación comparativa estandarizada.
El Desafío de Doble Uso: Al abrir el código de la evaluación, OpenAI y Paradigm están dando a los “buenos” las herramientas para medir y superar a los “malos”, manteniendo un marco de “Acceso Confiable para Ciberseguridad” para monitorear riesgos emergentes.

Mirando Hacia Adelante

Aunque EVMbench es un paso revolucionario, actualmente está limitado a entornos deterministas y sandbox. Se espera que futuras versiones incorporen dependencias multi-cadena y consideraciones de MEV (Valor Extraíble Máximo) para simular mejor el “Bosque Oscuro” de la red principal de Ethereum en vivo.

A medida que los agentes de IA pasen de “escribir código” a “asegurar economías”, EVMbench se posiciona como la referencia definitiva para la próxima generación de finanzas sin confianza.

Aviso Legal: Las opiniones y análisis presentados en este artículo son solo con fines informativos y reflejan la perspectiva del autor, no asesoramiento financiero. Los patrones técnicos e indicadores discutidos están sujetos a la volatilidad del mercado y pueden o no producir los resultados anticipados. Se recomienda a los inversores ejercer cautela, realizar investigaciones independientes y tomar decisiones alineadas con su tolerancia al riesgo individual.

Sobre el Autor: Nilesh Hembade es fundador y autor principal de Coinsprobe, con más de 5 años de experiencia en la industria de criptomonedas y blockchain. Desde el lanzamiento de Coinsprobe en 2023, ha estado proporcionando análisis de mercado diarios, datos en cadena e investigaciones técnicas en profundidad.

Ver originales

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios