Claude Fable 5 除錯分數從 86.2 降至 25.9，於 7 月 1 日恢復後。

2026-07-04 21:18:09

Claude Fable 5 於 7 月 1 日重新上線，當天兩個 AI 基準測試平台發布了相互矛盾的效能評估。BridgeBench 報告指出，Claude Fable 5 在復活後，除錯評分從 86.2 暴跌至 25.9，而 Arena.AI 則透過數千次盲測人類偏好投票發現，效能大致未變。這項分歧源自 Anthropic 新推出的安全分類器，該分類器將大多數編碼和除錯任務導向 Claude Opus 4.8，而非讓 Fable 5 直接處理。Anthropic 已承認該分類器對例行編碼任務會產生誤判。公司部署此保守分類器，是 Fable 5 在 Amazon 研究人員展示安全漏洞後得以重新上線的條件。

BridgeBench 記錄編碼類別嚴重分數下降

BridgeMind 在 Fable 5 回歸當天，針對其 7 月 1 日版本重新執行完整編碼套件。BridgeBench 測試涵蓋除錯、重構及抗幻覺等類別的實際編碼任務，每個類別以 0–100 分評估模型完成程度。除錯從 86.2 降至 25.9，重構從 73.6 降至 38.4，抗幻覺從 75.9 降至 61.7。

在 12 項 TypeScript 除錯任務中，僅 3 項實際送達 Fable 5。其餘 9 項被 Anthropic 的新安全分類器攔截，轉送至 Claude Opus 4.8。BridgeBench 將所有轉送結果視為零分，因為回答的模型並非受測對象。該分類器專門訓練用來阻擋 Amazon 所回報、曾讓 Fable 5 識別並展示軟體漏洞的越獄手法。對分類器而言，TypeScript 除錯與安全工作過於相似，導致轉送頻繁觸發。

Arena.AI 人類偏好投票顯示效能持平或改善

Arena.AI 以不同角度進行同一測試。該平台收集數千次跨類別（文字、視覺、文件、程式碼、代理）的盲測人類偏好投票，並使用 Elo 評分對模型進行排名。當兩個模型匿名對戰，由人類選出勝者時，分數反映實際感知品質，而非基礎設施路由。

前後比較顯示，Fable 5 大致維持水準。前端程式碼從 1650 Elo 降至 1623 Elo——Arena 指出此差距仍在信賴區間內，且數據持續累積中。文件效能提升 34 分。專家級文字上升 25 分。創意寫作微幅增加 9 分。下降的類別——編碼 -18、困難提示 -3——正是分類器最可能在 Fable 回答前攔截提示的領域。

當 Fable 5 實際處理任務時，它仍表現如 Fable 5。從事創意寫作、文件分析、研究及專家級文字查詢的一般使用者，可能幾乎感覺不到差異。這些正是 Arena.AI 顯示效能持平或改善的類別。但從事安全相關領域的開發者——如記憶體管理編碼、任何涉及「漏洞」、「利用」、「鉤子」或「修復」等詞彙的任務——將頻繁觸發轉送。

Anthropic 承認例行編碼工作出現誤判

Anthropic 表示分類器將隨著時間改善，並承認目前覆蓋範圍過廣。最初的禁用，源於 Amazon 研究人員發現一種能讓 Fable 識別並展示軟體漏洞的技術，而美國政府將其視為國家安全威脅。解決方案是讓分類器保守到足以捕捉該漏洞及其周邊所有情況，之後再逐步調降。Anthropic 未給出調降的目標日期。

常見問題

為何 Claude Fable 5 在 7 月 1 日後除錯評分從 86.2 降至 25.9？

此下降源於 Anthropic 的新安全分類器將 12 項除錯任務中的 9 項導向 Claude Opus 4.8，而非讓 Fable 5 處理。BridgeBench 將所有轉送視為零分，因為受測模型未回答。該分類器部署是為了阻擋 Amazon 所回報、曾讓 Fable 5 展示軟體漏洞的越獄手法。

Arena.AI 的人類偏好測試與 BridgeBench 的結果有何不同？

Arena.AI 收集了數千次跨文字、視覺、文件、程式碼及代理類別的盲測人類偏好投票。該平台發現 Fable 5 效能與 6 月版本大致持平，文件效能提升 34 分，專家級文字上升 25 分。前端程式碼從 1650 Elo 降至 1623 Elo，Arena 指出此差距仍在信賴區間內。

Anthropic 何時會改進安全分類器以減少誤判？

Anthropic 已承認新分類器對例行編碼和除錯任務會產生誤判，並表示系統將隨著時間完善。公司未給出完善時程。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。