研究人員表示,Anthropic 的令人擔憂的神話發現已用現成的人工智慧重複驗證

###簡要摘要

  • 研究人員展示了Anthropic風格的漏洞利用可以用公開的AI重現,報告聲稱。
  • 研究表明漏洞發現已經變得廉價且廣泛可及。
  • 研究結果顯示,AI網絡能力的傳播速度可能比預期更快。

當Anthropic在本月初推出Claude Mythos時,將該模型封鎖在經過篩選的科技巨頭聯盟背後,並將其描述為過於危險,不能公開。財政部長Scott Bessent和聯邦儲備主席Jerome Powell召開緊急會議,與華爾街CEO討論。安全圈中“vulnpocalypse”一詞再次浮出水面。 而現在,一組研究人員進一步複雜化了這一敘事。 Vidoc Security利用Anthropic自己修補的公開範例,試圖在一個名為opencode的開源編碼代理中,用GPT-5.4和Claude Opus 4.6重現這些範例。沒有Glasswing邀請,沒有私人API訪問,也沒有Anthropic內部堆疊。 “我們在opencode中用公開模型重現了Mythos的發現,而非Anthropic的私有堆疊,”參與實驗的研究人員Dawid Moczadło在發布結果後在X上寫道。“更好的解讀Anthropic的Mythos發布方式不是‘一個實驗室擁有一個神奇的模型’,而是:漏洞發現的經濟正在改變。”

我們在opencode中用公開模型重現了Mythos的發現,而非Anthropic的私有堆疊。

壕溝正從模型存取轉向驗證:找到漏洞信號變得更便宜;將其轉化為可信的安全

更好的解讀Anthropic的Mythos發布方式是… https://t.co/0FFxrc8Sr1 圖片連結

— Dawid Moczadło (@kannthu1) 2026年4月16日

他們針對的案例與Anthropic在其公開資料中強調的相同:一個伺服器文件共享協議、一個安全專注操作系統的網絡堆疊、幾乎每個媒體平台都嵌入的視頻處理軟件,以及用於驗證網絡上數字身份的兩個密碼學庫。 GPT-5.4和Claude Opus 4.6在每次三次運行中都重現了兩個漏洞案例。Claude Opus 4.6還獨立多次重新發現OpenBSD中的一個漏洞,連續三次,而GPT-5.4在該漏洞上得分為零。有些漏洞(涉及用於視頻播放的FFmpeg庫,另一個涉及用wolfSSL處理數字簽名的漏洞),結果都較為部分——模型找到了正確的代碼表面,但未能精確定位根本原因。

圖片:Vidoc Security

每次掃描都低於$30 每個文件的限制,意味著研究人員能用更少的成本找到與Anthropic相同的漏洞。

“AI模型已經足夠好,能縮小搜索空間,提供真正的線索,有時甚至能在經過測試的代碼中恢復完整的根本原因,”Moczadło在X上說。 他們使用的工作流程不是一次性提示,而是模仿Anthropic公開描述的方法:給模型一個代碼庫,讓它探索、並行嘗試、篩選信號。Vidoc團隊用開源工具建立了相同的架構。一個規劃代理將每個文件拆分成塊。另一個檢測代理在每個塊上運行,然後檢查存儲庫中的其他文件,以確認或排除發現。 每個檢測提示中的行範圍——例如“聚焦於第1158-1215行”——並非由研究人員手動選擇,而是來自前一個規劃步驟的輸出。博客文章明確指出:“我們要明確說明,因為分塊策略會影響每個檢測代理所見的內容,我們不希望將工作流程呈現得比實際更手工策劃。” 該研究並未聲稱公開模型在所有方面都能媲美Mythos。Anthropic的模型不僅能發現FreeBSD漏洞,還能構建一個可行的攻擊藍圖,推算攻擊者如何將多個網絡包中的代碼片段串聯起來,遠程控制整台機器。Vidoc的模型找到了漏洞,但沒有構建攻擊工具。真正的差距在於:不是找到漏洞,而是知道如何利用它。 但Moczadło的論點並非公開模型同樣強大,而是:工作流程中昂貴的部分現在對任何擁有API密鑰的人都已開放:“壕溝正從模型存取轉向驗證:找到漏洞信號變得更便宜;將其轉化為可信的安全工作仍然困難。” Anthropic自己的安全報告承認,用來衡量模型是否構成嚴重網絡風險的基準Cybench,“已不再充分反映當前前沿模型的能力”,因為Mythos已完全通過該測試。該實驗室估計,類似能力將在六到十八個月內在其他AI實驗室中普及。 Vidoc的研究表明,漏洞發現的部分已經在任何受控計劃之外變得可用。他們的完整提示摘錄、模型輸出和方法論附錄已在實驗室的官方網站上公布。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言