クロード・フェイブル5は7月1日にオンライン復帰し、同日に二つのAIベンチマークプラットフォームが矛盾する性能評価を公表した。 BridgeBenchはクロード・フェイブル5のデバッグスコアが復帰後に86.2から25.9に急落したと報告した。一方、Arena.AIは数千件のブラインド人選好投票を通じて性能がほぼ変わっていないと判断した。 この乖離は、Anthropicが新たに導入した安全分類器が、ほとんどのコーディングおよびデバッグタスクをクロード・フェイブル5が直接処理するのではなく、クロード・オーパス4.8にルーティングしていることに起因する。 Anthropicは、この分類器が日常的なコーディングタスクで誤検出を発生させることを認識している。 同社は、Amazonの研究者が報告したセキュリティ脆弱性の実証を受けて、フェイブル5の復帰条件としてこの保守的な分類器を導入した。
BridgeMindは、フェイブル5が復帰した日に、7月1日版に対して全コーディングスイートを再実行した。 BridgeBenchは、デバッグ、リファクタリング、幻覚耐性を含むカテゴリにわたって実世界のコーディングタスクをテストし、各カテゴリの完了性能を0~100でスコアリングする。 デバッグは86.2から25.9へ、リファクタリングは73.6から38.4へ、幻覚耐性は75.9から61.7へ低下した。 12のTypeScriptデバッグタスクのうち、実際にフェイブル5に到達したのはわずか3つだった。 残りの9つはAnthropicの新しい安全分類器によって傍受され、クロード・オーパス4.8にルーティングされた。 BridgeBenchはすべてのフォールバックをゼロとスコアリングする。回答したモデルが評価対象ではなかったためである。 この分類器は、フェイブル5にソフトウェア脆弱性を特定・実証させたAmazon報告のジェイルブレイク手法をブロックするよう訓練された。 TypeScriptのデバッグは分類器にとってセキュリティ作業と十分に類似して見えるため、フォールバックが常に作動する。
Arena.AIは同じ問題を異なる視点で検証した。 このプラットフォームは、テキスト、ビジョン、ドキュメント、コード、エージェントの複数カテゴリにわたって数千件のブラインド人選好投票を収集し、Eloスコアリングでモデルをランク付けする。 二つのモデルが匿名で対決し、人間が勝者を選ぶとき、スコアはインフラのルーティングではなく実際の知覚品質を反映する。 復帰前後の比較では、フェイブル5は概ねその地位を維持していることが示された。 フロントエンドコードは1650から1623Eloに低下した——Arenaはこの差はデータが蓄積され続ける中で信頼区間内であると指摘している。 ドキュメント性能は34ポイント向上した。 専門家向けテキストは25上昇した。 クリエイティブライティングはわずかに9上昇した。 低下したカテゴリ(コーディング:-18、ハードプロンプト:-3)は、まさに分類器がフェイブルが回答する前にプロンプトを傍受する可能性が最も高い領域である。 フェイブル5が実際にタスクを処理する場合、依然としてフェイブル5らしい性能を発揮する。 クリエイティブライティング、ドキュメント分析、リサーチ、専門家レベルのテキストクエリを行う一般ユーザーは、ほとんど違いに気づかないだろう。 これらはArena.AIが横ばいまたは改善された性能を示すカテゴリである。 セキュリティ関連領域(メモリ管理のコーディング、脆弱性、エクスプロイト、フック、修正といった単語に触れるもの)で作業する開発者は、定期的にフォールバックに遭遇するだろう。
Anthropicは、分類器は時間とともに改善されると述べ、現在は網を広くかけすぎていることを認めている。 当初の禁止は、Amazonの研究者がフェイブルにソフトウェア脆弱性を特定・実証させる手法を発見し、米国政府がそれを国家安全保障上の脅威として扱った後に生じた。 修正策は、分類器をその手法とその周辺すべてを捕捉できるほど保守的にし、後で調整を緩めることだった。 Anthropicはそれがいつ行われるかについて目標日を明示していない。
7月1日以降、クロード・フェイブル5のデバッグスコアが86.2から25.9に低下した原因は何ですか? この低下は、Anthropicの新しい安全分類器が12のデバッグタスクのうち9つをフェイブル5が処理する代わりにクロード・オーパス4.8にルーティングした結果です。BridgeBenchは評価対象モデルが回答しなかったため、すべてのフォールバックをゼロとスコアリングします。この分類器は、フェイブル5にソフトウェア脆弱性を実証させたAmazon報告のジェイルブレイク手法をブロックするために導入されました。 Arena.AIの人間選好テストはBridgeBenchの結果とどのように異なりましたか? Arena.AIは、テキスト、ビジョン、ドキュメント、コード、エージェントのカテゴリにわたって数千件のブラインド人選好投票を収集しました。このプラットフォームは、フェイブル5の性能が6月版と比較してほぼ横ばいであり、ドキュメント性能が34ポイント向上し、専門家向けテキストが25ポイント上昇したことを発見しました。フロントエンドコードは1650から1623Eloに低下しましたが、Arenaはこの差は信頼区間内であると指摘しています。 Anthropicは誤検出を減らすために安全分類器をいつ改良する予定ですか? Anthropicは、新しい分類器が日常的なコーディングおよびデバッグタスクで誤検出を発生させることを認め、システムは時間をかけて改良されると述べています。同社は改良がいつ行われるかについてのスケジュールを示していません。
関連ニュース