El 1 de mayo, el Instituto de Seguridad de la IA del Reino Unido (AI Security Institute, AISI) publicó un informe de evaluación sobre las capacidades de ciberataque de OpenAI GPT-5.5, indicando que la tasa de éxito de GPT-5.5 en la prueba de dificultad Expert fue de 71,4%, mientras que Anthropic Claude Mythos Preview alcanzó 68,6%, con la diferencia dentro del rango de error estadístico. GPT-5.5 también es, después de Mythos, el segundo sistema de IA capaz de completar de forma autónoma los 32 pasos del simulacro de intrusión corporativa de AISI “The Last Ones”. AISI advierte que esto muestra que los rápidos avances en capacidades de ataque de IA podrían formar parte de una “tendencia general”, y no de un único hecho decisivo.
Expert: 71,4% vs 68,6% y la diferencia cae dentro del margen de error
AISI es una institución de investigación de seguridad de la IA dependiente del Departamento de Ciencia, Innovación y Tecnología del Reino Unido. En esta prueba, AISI realizó la evaluación más reciente sobre las capacidades ofensivas de red de los modelos frontier de IA. En las preguntas de mayor dificultad Expert, GPT-5.5 logró una tasa de éxito promedio de 71,4% y Mythos Preview de 68,6%; la diferencia entre ambos queda dentro del rango de error estadístico, lo que significa que, a día de hoy, la capacidad de ataque de los modelos insignia de OpenAI y Anthropic está prácticamente igualada.
El simulacro de intrusión en redes empresariales de 32 pasos “The Last Ones” es el apartado de evaluación más desafiante de AISI: GPT-5.5 completó de forma autónoma 2 de 10 intentos (sin intervención humana), mientras que Mythos Preview completó 3 de 10. En el pasado, este proyecto solo lo había logrado Mythos; GPT-5.5 es el segundo modelo en alcanzar el objetivo. En otra prueba, GPT-5.5 resolvió una tarea de ingeniería inversa en aproximadamente 10 minutos, mientras que los expertos humanos de seguridad requieren en promedio 12 horas.
Universal jailbreak: un ataque de “universal jailbreak” que, tras 6 horas de desarrollo del equipo rojo, puede eludir todos los filtros de consultas maliciosas
Los investigadores de AISI también encontraron un vector de ataque de “universal jailbreak” en las pruebas: en todas las categorías de consultas de red maliciosas evaluadas, este ataque puede inducir a GPT-5.5 a generar contenido dañino, incluyendo escenarios de diálogo agentic en múltiples rondas. AISI afirma que los expertos del equipo rojo tardaron aproximadamente 6 horas en desarrollar este jailbreak.
Para OpenAI, la existencia de este universal jailbreak significa que incluso si GPT-5.5-Cyber se despliega en escenarios con acceso restringido, como el programa de trusted access, aún podría ser eludido por adversarios técnicamente competentes. OpenAI ya reveló evaluaciones relacionadas con seguridad de la red en su system card de GPT-5.5, pero la evaluación independiente de terceros de AISI ofrece un estándar de pares más creíble.
Próximas observaciones: el cronograma de la siguiente ronda de evaluación de AISI y la respuesta de OpenAI ante el jailbreak
El siguiente punto de observación es el cronograma de la siguiente ronda de evaluación de modelos frontier por parte de AISI tras Mythos y GPT-5.5, y si OpenAI publicará en mayo actualizaciones dirigidas para responder a este universal jailbreak revelado. En las conclusiones de su informe, AISI afirma de forma explícita: “Si la capacidad de ciberataque es un subproducto de mejoras más amplias en razonamiento, codificación y tareas de autonomía, los avances posteriores podrían llegar a un ritmo más acelerado”; esta observación sugiere que en los próximos meses podría haber más modelos frontier que alcancen el umbral “nivel Mythos”.
Este artículo de evaluación de AISI: La capacidad de ciberataque de GPT-5.5 está al mismo nivel que Anthropic Mythos, aparece por primera vez en Cadena News ABMedia.
Artículos relacionados
El Comité de Asuntos Exteriores de la Cámara de Representantes de EE. UU. se reúne con gigantes tecnológicos sobre los controles de exportación de IA después de que se apruebe la Ley MATCH con 36-8
OpenAI lanza Codex Pets, un compañero virtual impulsado por IA con generación personalizada
El Pentágono firma contratos de despliegue de redes militares confidenciales con 7 grandes empresas de IA: Anthropic sigue quedando fuera
Cerebras apunta al $4B IPO, valorada en ~$40B
Las empresas chinas de IA consideran desmantelar las estructuras de “red-chip” tras la suspensión de la adquisición de Manus por parte de Meta
Musk completa testimonio de tres días en la demanda contra OpenAI, cita una reclamación de daños de 130-150 mil millones de dólares