Viện An toàn AI của Anh (AI Security Institute, AISI) ngày 1/5 công bố báo cáo đánh giá khả năng tấn công mạng của OpenAI GPT-5.5. Theo đó, tỷ lệ thành công của GPT-5.5 ở bài test độ khó Expert lần lượt là 71,4%, còn với Anthropic Claude Mythos Preview là 68,6%; khoảng chênh lệch nằm trong phạm vi sai số thống kê. GPT-5.5 cũng là hệ thống AI thứ hai, sau Mythos, có thể tự động hoàn thành bài mô phỏng xâm nhập mạng doanh nghiệp đủ 32 bước của AISI mang tên “The Last Ones”. AISI cảnh báo rằng, điều này cho thấy năng lực tấn công bằng AI đang tiến bộ nhanh có thể là “một xu hướng tổng thể”, chứ không phải một sự đột phá đơn lẻ.
Expert độ khó: 71,4% vs 68,6%, chênh lệch nằm trong sai số
AISI là cơ quan nghiên cứu an toàn AI thuộc Bộ Khoa học, Đổi mới và Công nghệ của Anh. Vòng thử nghiệm này là đợt đánh giá mới nhất của AISI đối với năng lực tấn công mạng mang tính “frontier” của các mô hình AI. Ở câu hỏi độ khó Expert cao nhất, GPT-5.5 đạt tỷ lệ thành công trung bình 71,4%, trong khi Mythos Preview đạt 68,6%; khoảng chênh lệch giữa hai bên nằm trong phạm vi sai số thống kê, nghĩa là năng lực tấn công của các mô hình trụ cột hàng đầu của OpenAI và Anthropic hiện đã ở mức thực chất tương đương.
Bài test mô phỏng xâm nhập mạng doanh nghiệp gồm 32 bước “The Last Ones” là hạng mục đánh giá thách thức nhất của AISI: GPT-5.5 tự hoàn thành 2 trong 10 lần thử (không có can thiệp của con người), trong khi Mythos Preview hoàn thành 3 trong 10 lần. Trước đây, chỉ Mythos từng hoàn thành hạng mục này; GPT-5.5 là mô hình thứ hai đạt ngưỡng. Ở một bài kiểm tra khác, GPT-5.5 dùng khoảng 10 phút để giải một bài toán về kỹ thuật đảo ngược, trong khi các chuyên gia an ninh con người trung bình cần 12 giờ.
Universal jailbreak: Chỉ mất 6 giờ để đội red-team phát triển là có thể vượt qua mọi bộ lọc truy vấn độc hại
Các nhà nghiên cứu của AISI trong quá trình thử nghiệm cũng phát hiện một vector tấn công “universal jailbreak” (jailbreak phổ dụng): trong toàn bộ các nhóm truy vấn mạng độc hại được đưa vào thử nghiệm, vector này có thể khiến GPT-5.5 tạo ra nội dung gây hại, bao gồm cả các bối cảnh hội thoại nhiều lượt theo kiểu agentic. AISI cho biết các chuyên gia red-team chỉ mất khoảng 6 giờ để phát triển jailbreak này.
Với OpenAI, sự tồn tại của universal jailbreak này đồng nghĩa rằng ngay cả khi GPT-5.5-Cyber được triển khai trong các bối cảnh hạn chế truy cập như chương trình trusted access, vẫn có thể bị đối thủ kỹ thuật lành nghề vượt qua. OpenAI trong system card của GPT-5.5 đã công bố các đánh giá liên quan đến an ninh mạng, nhưng đánh giá độc lập từ bên thứ ba của AISI cung cấp chuẩn mực đồng nghiệp đáng tin cậy hơn.
Theo dõi tiếp: Lịch đánh giá vòng sau của AISI, và cách OpenAI đối phó với jailbreak
Điểm quan sát tiếp theo là lịch trình đánh giá “frontier” cho vòng mô hình tiếp theo của AISI sau Mythos và GPT-5.5, cũng như việc OpenAI có tung ra bản cập nhật nhắm mục tiêu cho universal jailbreak được tiết lộ này hay không vào tháng 5. Trong phần kết luận của báo cáo, AISI nêu rõ: “Nếu năng lực tấn công mạng là một sản phẩm phụ của việc cải thiện suy luận, lập trình và nhiệm vụ tự chủ trên diện rộng hơn, thì các tiến bộ tiếp theo có thể sẽ đến với tốc độ nhanh hơn”—quan sát này cho thấy trong vài tháng tới có thể xuất hiện thêm các mô hình frontier bước vào ngưỡng “cấp độ Mythos”.
Bài viết AISI đánh giá: GPT-5.5 ngang bằng năng lực tấn công mạng với Anthropic Mythos lần đầu xuất hiện trên chuỗi tin ABMedia.
Bài viết liên quan
Ủy ban Đối ngoại Hạ viện Mỹ gặp các gã khổng lồ công nghệ về các biện pháp kiểm soát xuất khẩu AI sau khi Đạo luật MATCH được thông qua với tỷ lệ 36-8
OpenAI Ra mắt Codex Pets, trợ lý ảo được AI hỗ trợ với khả năng tạo nội dung tùy chỉnh
Lầu Năm Góc ký hợp đồng triển khai mạng quân sự bí mật với 7 hãng AI: Anthropic vẫn bị loại trừ
Các công ty AI Trung Quốc cân nhắc tháo dỡ cấu trúc “red-chip” sau khi Meta ngừng thương vụ mua lại Manus
Musk Hoàn Tất Bài Điều Trần Ba Ngày Trong Vụ Kiện OpenAI, Trích Dẫn Yêu Cầu Thiệt Hại 130-150 Tỷ USD