✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
Anthropic 的驚人神話發現被用現成的 AI 重複驗證,研究人員表示
###簡要說明
當Anthropic在本月初推出Claude Mythos時,將該模型封鎖在經過篩選的科技巨頭聯盟背後,並將其描述為過於危險,不能公開。財政部長Scott Bessent和聯邦儲備主席Jerome Powell召開緊急會議,與華爾街CEO討論。安全圈中“vulnpocalypse”一詞再次浮出水面。 而現在,一組研究人員進一步複雜化了這一敘事。 Vidoc Security利用Anthropic自己修補的公開範例,試圖在一個名為opencode的開源編碼代理中,用GPT-5.4和Claude Opus 4.6重現這些範例。沒有Glasswing邀請,沒有私人API存取,也沒有Anthropic內部堆疊。 “我們在opencode中用公開模型重現了Mythos的發現,而非Anthropic的私有堆疊,”參與實驗的研究人員Dawid Moczadło在發布結果後在X上寫道。“更好的解讀Anthropic的Mythos發布方式不是‘一個實驗室擁有一個神奇的模型’,而是:漏洞發現的經濟正在改變。”
他們針對的案例與Anthropic在其公開資料中強調的相同:一個伺服器文件共享協議、一個安全專注操作系統的網絡堆疊、幾乎每個媒體平台都嵌入的視頻處理軟件,以及用於驗證網絡上數字身份的兩個密碼學庫。 GPT-5.4和Claude Opus 4.6在每次三次測試中都重現了兩個漏洞案例。Claude Opus 4.6還獨立多次(連續三次)重新發現了OpenBSD中的一個漏洞,而GPT-5.4在該漏洞上得分為零。有些漏洞(涉及用於視頻播放的FFmpeg庫,另一個涉及用wolfSSL處理數字簽名的漏洞),結果都較為部分——模型找到了正確的代碼表面,但未能精確定位根本原因。
圖片:Vidoc Security
每次掃描都低於$30 每個文件的限制,意味著研究人員能用更少的成本找到與Anthropic相同的漏洞。
“AI模型已經足夠好,能縮小搜索空間,提供真正的線索,有時甚至能在經過測試的代碼中恢復完整的根本原因,”Moczadło在X上說。 他們使用的工作流程不是一次性提示,而是模仿Anthropic公開描述的方法:給模型一個代碼庫,讓它探索、並行嘗試、篩選信號。Vidoc團隊用開源工具建立了相同的架構。一個規劃代理將每個文件拆分成塊。另一個檢測代理在每個塊上運行,然後檢查存儲庫中的其他文件,以確認或排除發現。 每個檢測提示中的行範圍——例如“聚焦於第1158-1215行”——並非由研究人員手動選擇,而是來自前一個規劃步驟的輸出。博客文章明確指出:“我們要明確說明,因為分塊策略會影響每個檢測代理所見的內容,我們不希望將工作流程描述得比實際更人工篩選。” 該研究並未聲稱公開模型在所有方面都能媲美Mythos。Anthropic的模型不僅能發現FreeBSD漏洞,還能構建一個可行的攻擊藍圖,推算攻擊者如何將多個代碼片段串聯在一起,通過多個網絡包遠程控制整台機器。Vidoc的模型找到了漏洞,但沒有構建攻擊工具。真正的差距在於:不是找到漏洞,而是知道如何利用它。 但Moczadło的觀點並非公開模型同樣強大,而是:工作流程中昂貴的部分現在對任何擁有API密鑰的人都已開放:“壕溝正從模型存取轉向驗證:找到漏洞信號變得更便宜;將其轉化為可信的安全工作仍然困難。” Anthropic自己的安全報告承認,用來衡量模型是否構成嚴重網絡風險的基準Cybench“已不再充分反映當前前沿模型的能力”,因為Mythos已完全通過該測試。該實驗室估計,類似能力在六到十八個月內將在其他AI實驗室中擴散。 Vidoc的研究表明,漏洞發現的部分已經在任何受控計劃之外變得可用。他們完整的提示片段、模型輸出和方法論附錄已在實驗室的官方網站上公布。