Tin tức Gate News: các nhà nghiên cứu của Google DeepMind cảnh báo rằng, môi trường Internet cởi mở có thể bị lợi dụng để chiếm quyền các tác nhân AI tự chủ, từ đó thao túng hành vi của chúng. Báo cáo có tên “Bẫy tác nhân AI” nêu rằng, khi doanh nghiệp triển khai các tác nhân AI để thực hiện các nhiệm vụ thực tế, kẻ tấn công cũng có thể tiến hành các cuộc tấn công có mục tiêu thông qua mạng. Nghiên cứu đã xác định sáu rủi ro chính, bao gồm: bẫy chèn nội dung, bẫy thao túng ngữ nghĩa, bẫy trạng thái nhận thức, bẫy kiểm soát hành vi, bẫy hệ thống và bẫy tương tác người–máy.
Bẫy chèn nội dung là trực tiếp nhất; kẻ tấn công có thể đặt chỉ dẫn trong các bình luận HTML, siêu dữ liệu hoặc các phần tử trang ẩn, sau khi tác nhân đọc được thì có thể thực thi. Bẫy thao túng ngữ nghĩa được thực hiện bằng cách tải các cách diễn đạt mang tính “thẩm quyền” hoặc ngụy trang thành các trang web thuộc môi trường nghiên cứu, âm thầm ảnh hưởng đến cách tác nhân hiểu nhiệm vụ, đôi khi thậm chí còn vượt qua các cơ chế an toàn. Bẫy trạng thái nhận thức hoạt động bằng cách cấy dữ liệu giả vào các nguồn thông tin của tác nhân, khiến nó trong thời gian dài tin nhầm rằng các thông tin này đã được xác minh. Bẫy kiểm soát hành vi thì nhắm vào thao tác thực tế của tác nhân, có thể dẫn dụ nó truy cập dữ liệu nhạy cảm và truyền chúng tới mục tiêu bên ngoài.
Bẫy hệ thống liên quan đến sự thao túng phối hợp giữa nhiều hệ thống AI, có thể gây ra hiệu ứng dây chuyền, tương tự như việc giao dịch theo thuật toán khiến thị trường sụp đổ đột ngột. Bẫy tương tác người–máy tận dụng khâu kiểm duyệt thủ công: bằng cách tạo ra nội dung kiểm duyệt trông có vẻ đáng tin, các hành vi gây hại có thể lách qua sự giám sát.
Để ứng phó rủi ro, DeepMind đề xuất kết hợp huấn luyện đối kháng, lọc đầu vào, giám sát hành vi và hệ thống uy tín nội dung mạng, đồng thời xây dựng khung trách nhiệm pháp lý rõ ràng hơn. Tuy nhiên, nghiên cứu cho thấy ngành hiện vẫn thiếu các tiêu chuẩn phòng vệ thống nhất; các biện pháp hiện có thường phân tán và tập trung không đồng đều. Nghiên cứu kêu gọi các nhà phát triển và doanh nghiệp chú ý đến an toàn môi trường vận hành của các tác nhân AI, phòng ngừa các rủi ro tiềm ẩn về thao túng trên mạng và lạm dụng.