Gate News 消息,谷歌 DeepMind 的研究人員警告稱,開放的互聯網環境可能被利用來劫持自主人工智慧代理,操縱其行為。這份名為《人工智慧代理陷阱》的報告指出,企業在部署 AI 代理執行實際任務時,攻擊者也可能透過網路進行針對性攻擊。研究識別出六種主要風險,包括內容注入陷阱、語意操縱陷阱、認知狀態陷阱、行為控制陷阱、系統陷阱以及人機互動陷阱。
內容注入陷阱最為直接,攻擊者可在 HTML 註解、中繼資料或隱藏頁面元素中放置指令,智慧體讀取後即可執行。語意操縱陷阱則透過載入權威措辭或偽裝成研究環境的網頁,悄然影響智慧體對任務的理解,有時甚至繞過安全機制。認知狀態陷阱透過向智慧體資訊來源植入虛假資料,使其長期誤以為這些資訊已驗證。行為控制陷阱則針對智慧體實際操作,可誘導其存取敏感資料並傳輸至外部目標。
系統陷阱涉及跨多個 AI 系統的協同操縱,可能引發連鎖反應,類似演算法交易引發的市場閃崩。人機互動陷阱則利用人工審核環節,透過製作看似可信的審核內容,使有害行為繞過監管。
為應對風險,DeepMind 建議結合對抗訓練、輸入過濾、行為監控和網路內容信譽系統,同時建立更明確的法律責任框架。然而,研究指出業界尚缺乏統一防禦標準,現有措施多分散且重點不一。研究呼籲開發者和企業關注 AI 代理的操作環境安全,防範潛在網路操控和濫用風險。