Claude Fable 5 於 7 月 1 日重新上線,當天兩個 AI 基準測試平台發布了相互矛盾的效能評估。BridgeBench 報告指出,Claude Fable 5 在復活後,除錯評分從 86.2 暴跌至 25.9,而 Arena.AI 則透過數千次盲測人類偏好投票發現,效能大致未變。這項分歧源自 Anthropic 新推出的安全分類器,該分類器將大多數編碼和除錯任務導向 Claude Opus 4.8,而非讓 Fable 5 直接處理。Anthropic 已承認該分類器對例行編碼任務會產生誤判。公司部署此保守分類器,是 Fable 5 在 Amazon 研究人員展示安全漏洞後得以重新上線的條件。
BridgeBench 記錄編碼類別嚴重分數下降
BridgeMind 在 Fable 5 回歸當天,針對其 7 月 1 日版本重新執行完整編碼套件。BridgeBench 測試涵蓋除錯、重構及抗幻覺等類別的實際編碼任務,每個類別以 0–100 分評估模型完成程度。除錯從 86.2 降至 25.9,重構從 73.6 降至 38.4,抗幻覺從 75.9 降至 61.7。
在 12 項 TypeScript 除錯任務中,僅 3 項實際送達 Fable 5。其餘 9 項被 Anthropic 的新安全分類器攔截,轉送至 Claude Opus 4.8。BridgeBench 將所有轉送結果視為零分,因為回答的模型並非受測對象。該分類器專門訓練用來阻擋 Amazon 所回報、曾讓 Fable 5 識別並展示軟體漏洞的越獄手法。對分類器而言,TypeScript 除錯與安全工作過於相似,導致轉送頻繁觸發。
Arena.AI 人類偏好投票顯示效能持平或改善
Arena.AI 以不同角度進行同一測試。該平台收集數千次跨類別(文字、視覺、文件、程式碼、代理)的盲測人類偏好投票,並使用 Elo 評分對模型進行排名。當兩個模型匿名對戰,由人類選出勝者時,分數反映實際感知品質,而非基礎設施路由。
前後比較顯示,Fable 5 大致維持水準。前端程式碼從 1650 Elo 降至 1623 Elo——Arena 指出此差距仍在信賴區間內,且數據持續累積中。文件效能提升 34 分。專家級文字上升 25 分。創意寫作微幅增加 9 分。下降的類別——編碼 -18、困難提示 -3——正是分類器最可能在 Fable 回答前攔截提示的領域。
當 Fable 5 實際處理任務時,它仍表現如 Fable 5。從事創意寫作、文件分析、研究及專家級文字查詢的一般使用者,可能幾乎感覺不到差異。這些正是 Arena.AI 顯示效能持平或改善的類別。但從事安全相關領域的開發者——如記憶體管理編碼、任何涉及「漏洞」、「利用」、「鉤子」或「修復」等詞彙的任務——將頻繁觸發轉送。
Anthropic 承認例行編碼工作出現誤判
Anthropic 表示分類器將隨著時間改善,並承認目前覆蓋範圍過廣。最初的禁用,源於 Amazon 研究人員發現一種能讓 Fable 識別並展示軟體漏洞的技術,而美國政府將其視為國家安全威脅。解決方案是讓分類器保守到足以捕捉該漏洞及其周邊所有情況,之後再逐步調降。Anthropic 未給出調降的目標日期。
常見問題
為何 Claude Fable 5 在 7 月 1 日後除錯評分從 86.2 降至 25.9?
此下降源於 Anthropic 的新安全分類器將 12 項除錯任務中的 9 項導向 Claude Opus 4.8,而非讓 Fable 5 處理。BridgeBench 將所有轉送視為零分,因為受測模型未回答。該分類器部署是為了阻擋 Amazon 所回報、曾讓 Fable 5 展示軟體漏洞的越獄手法。
Arena.AI 的人類偏好測試與 BridgeBench 的結果有何不同?
Arena.AI 收集了數千次跨文字、視覺、文件、程式碼及代理類別的盲測人類偏好投票。該平台發現 Fable 5 效能與 6 月版本大致持平,文件效能提升 34 分,專家級文字上升 25 分。前端程式碼從 1650 Elo 降至 1623 Elo,Arena 指出此差距仍在信賴區間內。
Anthropic 何時會改進安全分類器以減少誤判?
Anthropic 已承認新分類器對例行編碼和除錯任務會產生誤判,並表示系統將隨著時間完善。公司未給出完善時程。