Recientemente, el equipo de investigación de sequrity.ai, especializado en la seguridad de agentes de IA, realizó pruebas con el robot OpenClaw y, solo por ingresar una instrucción cotidiana común, desencadenó una inesperada catástrofe de “auto-hacking”… (Resumen previo: No sigas ciegamente a OpenClaw, el AI de cangrejo es potente, pero no necesariamente adecuado para ti) (Información adicional: Solo mencionar Bitcoin y ser bloqueado: La ruptura entre el cangrejo OpenClaw y las criptomonedas)
Índice del artículo
Toggle
Con la popularización de la inteligencia artificial (IA), los agentes de IA muestran capacidades poderosas al asistir a los desarrolladores en tareas diarias. Sin embargo, esta tecnología también trae riesgos de seguridad sin precedentes. Recientemente, los desarrolladores del reconocido equipo de seguridad en IA, en probar el robot OpenClaw, experimentaron accidentalmente un incidente de “auto-hacking”. Debido a un pequeño error de sintaxis en la generación de instrucciones por parte del modelo de IA, todas las claves confidenciales en el entorno de prueba fueron publicadas en GitHub, permitiendo que atacantes desconocidos tomaran control total del servidor.
Las víctimas de este incidente no fueron usuarios sin conocimientos técnicos, sino investigadores y desarrolladores profesionales del equipo de seguridad en IA de “sequrity.ai”, como Aaron Zhao. Como expertos en la industria, confiaban en sus propias defensas e incluso habían publicado un artículo sobre cómo atacar el robot OpenClaw.
El equipo realizaba pruebas en un entorno sandbox sin configuraciones maliciosas, simplemente solicitando al robot OpenClaw realizar una tarea cotidiana aparentemente inofensiva: “Buscar las mejores prácticas para Python asíncrono (async) y crear un issue en GitHub para resumir los hallazgos”. Sin embargo, esta instrucción aparentemente simple fue la chispa que provocó la caída del sistema.
El problema radica en que, al llamar a la herramienta incorporada “exec” para crear un issue en GitHub, OpenClaw generó un script shell defectuoso.
En Bash, si una cadena está entre comillas dobles (“…”), el sistema interpreta ciertos contenidos (como el contenido dentro de los backticks) como “sustitución de comandos”, ejecutando primero esa instrucción y reemplazando su resultado en la cadena. Si se usan comillas simples (‘…’), el contenido se trata como texto literal.
En ese momento, la cadena generada por OpenClaw contenía algo como “… almacenarlos en un \set\ …” y usaba comillas dobles. En Bash, “set” es un comando interno que, sin argumentos, imprime todas las variables de entorno y funciones actuales.
Por lo tanto, en lugar de tratarse como una palabra, el sistema ejecutó directamente ese comando, extrayendo más de cien líneas de variables de entorno confidenciales, incluyendo tokens de autorización, y publicó toda esa información en la página pública de GitHub, visible para todos.
Las consecuencias de la filtración fueron rápidas. Entre las variables expuestas estaban las claves de Telegram del equipo de desarrollo y otros permisos importantes. Poco después, mediante monitoreo del sistema, detectaron a un atacante desde una IP de India que usó esas credenciales filtradas para conectarse por SSH y tomar control total del servidor sandbox.
Afortunadamente, los mecanismos de seguridad de OpenAI y Google detectaron las claves comprometidas en GitHub y notificaron al equipo. Esto permitió realizar una revisión exhaustiva, identificar la causa raíz, bloquear al atacante, limpiar todos los datos del entorno y revocar las claves comprometidas.
Este incidente hizo que los expertos en seguridad comprendieran la complejidad de la seguridad en IA. El equipo expresó en su artículo que solo ejecutaron una instrucción inocente, pero debido a una mala interpretación del funcionamiento de Bash por parte del modelo de IA, el sistema fue comprometido.
¿Es esto responsabilidad del usuario, un defecto del modelo de IA o una vulnerabilidad en el diseño de OpenClaw? El equipo admite que “realmente no lo sabemos”. Enfatizan que la seguridad en IA se ha convertido en un “problema de cola larga”, con muchas fallas de modos de fallo (failure modes) difíciles de enumerar y que desafían la imaginación. A medida que los agentes de IA adquieren más control sobre sistemas, garantizar que no causen desastres de seguridad catastróficos por errores mínimos será un reto que la comunidad tecnológica debe afrontar con seriedad.