Інститут безпеки ШІ Великої Британії (AI Security Institute, AISI) 1 травня оприлюднив звіт про оцінку можливостей мережевих атак для OpenAI GPT-5.5: успішність GPT-5.5 у тесті складності Expert становить 71,4%, а Anthropic Claude Mythos Preview — 68,6%; різниця перебуває в межах статистичної похибки. GPT-5.5 також є другим після Mythos ШІ-системою, що здатна самостійно виконати 32-етапну симуляцію корпоративного мережевого вторгнення AISI «The Last Ones». AISI попереджає, що це демонструє швидкий прогрес у можливостях атак ШІ може належати до «загального тренду», а не бути наслідком одиничного прориву.
Expert-тест складності: 71,4% проти 68,6% — різниця в межах похибки
AISI — дослідницька установа з безпеки ШІ при Міністерстві науки, інновацій і технологій Великої Британії. Цей раунд тестування є останньою оцінкою AISI агресивних мережевих можливостей для frontier AI-моделей. У найвищих завданнях рівня Expert GPT-5.5 демонструє середню успішність 71,4%, тоді як Mythos Preview — 68,6%; різниця між ними потрапляє в межі статистичної похибки, що означає: атакувальні можливості флагманських моделей OpenAI та Anthropic нині фактично зрівнялися.
32-етапна симуляція тесту на вторгнення в корпоративні мережі «The Last Ones» — один із найскладніших оціночних пунктів AISI: GPT-5.5 самостійно завершив 2 спроби з 10 (без втручання людини), а Mythos Preview — 3 з 10. У минулому цей проєкт проходив лише Mythos, а GPT-5.5 є другою моделлю, яка досягла потрібного рівня. В іншому тесті GPT-5.5 розв’язав задачу з реверс-інжинірингу приблизно за 10 хвилин, тоді як людські безпекові експерти в середньому потребували 12 годин.
Universal jailbreak: за 6 годин розробки red team можна обійти всі фільтри від шкідливих запитів
Під час тестування дослідники AISI також виявили «universal jailbreak» (універсальний jailbreak) — вектор атаки: серед усіх категорій шкідливих мережевих запитів, використаних у тестах, ця атака змушувала GPT-5.5 видавати шкідливий контент, зокрема багатокрокові agentic-сценарії діалогу. AISI заявляє, що експерти red team витратили близько 6 годин на розробку цього jailbreak.
Для OpenAI наявність цього universal jailbreak означає, що навіть за сценаріїв обмеженого доступу на кшталт trusted access у рамках програми, GPT-5.5-Cyber все ще може бути обійдений технічно підготовленими опонентами. OpenAI у system card для GPT-5.5 вже розкривала оцінки, пов’язані з кібербезпекою, однак незалежна третя-парти оцінка AISI дає більш переконливий академічний стандарт для порівняння.
Подальші спостереження: графік наступної оцінки AISI та реакція OpenAI на jailbreak
Наступний фокус — часовий план наступної оцінки frontier-моделей AISI після Mythos і GPT-5.5, а також чи OpenAI у травні випустить цільові оновлення проти цього universal jailbreak, який було розкрито. У заключних положеннях звіту AISI чітко зазначає: «Якщо агресивні мережеві можливості є ширшим побічним продуктом покращення міркувань, кодування та самостійних завдань, то подальші прогреси можуть приходити швидшим темпом» — це спостереження означає, що в найближчі місяці frontier-моделі знову можуть перейти поріг рівня «Mythos».
Цю статтю AISI оцінив: GPT-5.5 має паритет з Anthropic Mythos за мережевими атакувальними можливостями. Вперше з’явилася на ланцюжновій стрічці ABMedia.
Пов'язані статті
Комітет у закордонних справах Палати представників США проводить зустріч із техгігантами щодо експортних обмежень на AI після ухвалення закону MATCH Act 36-8
OpenAI запускає Codex Pets — AI-компаньйон у віртуальному світі з можливістю кастомної генерації
Пентагон підписав конфіденційний контракт із 7 компаніями AI на розгортання військової мережі: Anthropic знову виключили
Китайські компанії в сфері ШІ розглядають демонтаж «червоно-чипових» структур після зупинки зупинки придбання рукопису Meta
Маск завершує триденні свідчення у судовому процесі проти OpenAI, посилається на заяву про збитки на суму $130-150B