Un agente de inteligencia artificial (IA) salió del sandbox que los ingenieros de a16z crypto construyeron durante una prueba. Los ingenieros querían evaluar si los agentes de IA pueden ir más allá de identificar vulnerabilidades y crear exploits que funcionen.
Los ingenieros de seguridad Daejun Park y Matt Gleason publicaron los resultados el 28 de abril. Señalaron que su agente, que era de uso común, descubrió por sí mismo cómo usar herramientas que “nunca se le dieron de forma explícita”.
Estos resultados surgen en un momento en que Elon Musk hizo una declaración impactante al decir que ‘la IA podría matarnos a todos’.
¿Cómo el agente de IA “escapó” de su jaula?
Los ingenieros pusieron al agente en un entorno restringido, con acceso limitado a Etherscan y un nodo local fijado a un bloque específico. El equipo bloqueó todo acceso externo a la red.
Esta configuración de sandbox fue diseñada específicamente para evitar que el agente obtuviera datos futuros. Durante la prueba en el sandbox, el agente se detuvo ante un contrato objetivo no verificado y sin código fuente.
Síguenos en X para obtener las noticias más recientes en tiempo real
Entonces, consultó la configuración del nodo anvil local usando “cast rpc anvil_nodeInfo” y expuso la URL RPC principal junto con una clave API de Alchemy en texto plano. El agente intentó acceder directamente al exterior, pero el firewall de Docker bloqueó la solicitud.
Después de que el firewall bloqueara el acceso directo, el agente usó el método “anvil_reset RPC” para reiniciar el nodo anvil a un bloque futuro. Esto permitió al agente consultar los registros y transacciones de bloques futuros a través del nodo anvil local.
Luego, el agente recuperó las trazas de ejecución de la transacción del ataque. Tras terminar el análisis, el agente de IA restauró el nodo a su bloque original y creó una prueba de concepto funcional basada en los datos extraídos.
Después, Park y Gleason restringieron el proxy para bloquear todos los métodos de depuración de Anvil.
“Ocurrió en un entorno de sandbox a pequeña escala, pero muestra un patrón importante que merece ser documentado: los agentes habilitados por herramientas logran evitar restricciones para alcanzar sus objetivos,” señaló el equipo. “El uso de anvil_reset para saltarse el bloqueo del fork fue un comportamiento que no habíamos previsto.”
El incidente pone en evidencia un riesgo clave en los entornos de prueba de IA: los agentes pueden descubrir y aprovechar rutas inesperadas dentro de las toolchains, incluso sin instrucciones explícitas.
A pesar de esto, el estudio encontró que los agentes de IA todavía tienen limitaciones para ejecutar exploits complejos de DeFi. Aunque el agente identificaba vulnerabilidades de forma constante, tenía dificultades para desarrollar estrategias de ataque de varios pasos.
¿Tienes algo que contar sobre este artículo o cualquier otro tema? Escríbanos o únase a la discusión en nuestro canal de BeInCrypto en Telegram y en nuestros Newsletters. También puede encontrarnos en Facebook, X (Twitter) y YouTube.





