Anthropicの神話(Mythos)安全性レポートは、それが構築したものをもはや完全には測定できないことを示している

Decrypt
CYBER-1.05%

手短に

  • アンソリピックは昨日、Claude Mythosを確認した。サイバーセキュリティにおいてあまりにも高い能力を備えたAIで、主要なOSとブラウザのすべてでゼロデイを発見し、精査済みの防御側のみに限定されている。
  • Mythosを説明するシステムカードは、これまでのアンソリピックのどのリリースよりも、測定可能なほどヘッジが多く、確実性に欠け、主観的であり、さらに研究所はプロセス後半に重大な評価上の見落としがあったことを認めている。
  • Mythosの強力さが明かされた裏には、アンソリピックが自社モデルを認定するために使うツールが崩れ始めている、という静かな告白がある。

アンソリピックは昨日、これまでで最も能力の高いモデルであるClaude Mythos Previewの存在を確認し、一般公開しないと発表した。その理由は法律上でも規制上でも、社内の安全性に関する閾値に関連するものでもない。アンソリピックは、それはモデルが基本的に「物事を壊す」ことに対してあまりにも優れているからだと主張している。 リリース前のテストでは、Mythosは自律的に数千件のゼロデイ脆弱性を発見した。しかもその多くは、1〜2十年もの古さのものだった。あらゆる主要なオペレーティングシステムと、あらゆる主要なWebブラウザにおいて。通常は熟練した人間の専門家が指導なしで10時間以上かけて行うはずの、模擬された企業ネットワーク攻撃を、Mythosはエンドツーエンドで解決した。Firefox 147のJavaScriptエンジン上で、動作するエクスプロイトを84%の確率で開発することに成功している。現在一般公開されている最前線モデルであるClaude Opus 4.6は15.2%だった。 そこでアンソリピックは、代わりに制限付きの連合を組んだ。Project Glasswingは、Mythos Previewへのアクセスを、精査済みのサイバーセキュリティ組織(Amazon、Apple、Broadcom、Cisco、CrowdStrike、Linux Foundation、Microsoft、Palo Alto Networks、そして重要なソフトウェアを維持している約40のその他のグループ)にのみ提供する。

 アンソリピックは、利用クレジットとして最大 $100 百万、オープンソースのセキュリティ組織への直接寄付として $4 百万を拠出する。モデルが穴を見つけられるなら、まず防御側にそれを見つけさせる、というのが考え方だ。 この部分は物語のうえで重要だ。だが、これが最も重要な部分ではない。 平然と見過ごされている「Claude Mythosシステムカードのベンチマーク危機」 Mythos Previewのシステムカードの中には—発表とともに公開された244ページの技術文書だが—ほとんど気づかれないまま通り過ぎた告白が埋もれている。研究所が「作ったもの」を測れる力は、それを「作る力」よりも速く衰えている、という告白だ。

まずベンチマークから始めよう。 Cybenchで、モデルの進捗を40のキャプチャ・ザ・フラッグのチャレンジにまたがって追跡する標準的な公開サイバー能力評価で、Mythosは100%を獲得した。完璧だ。そしてアンソリピックはすぐに、そのベンチマークが「現在のフロンティア・モデルの能力を十分に示すものではなくなっている」と注記した。その一文が、かなり大きな仕事をしている。あなたにAIが深刻なサイバーリスクをもたらすかどうかを伝えるはずのテストは、いまやMythosのことをまったく何も教えてくれない。なぜならモデルはそれを完全にクリアしてしまったからだ。

これは新しい問題ではない。2月に公開されたOpus 4.6のシステムカードは、すでに「評価インフラの飽和により、現在のベンチマークを能力の進展を追跡するために使えなくなった」と警告していた。 しかし今、Mythosでは事態が急速に悪化した。文書はMythosが「(アンソリピックの)、最も具体的で客観的に採点された多くの評価を飽和させる」と述べている。ベンチマークのエコシステムは、アンソリピックが書くところによれば、今や「ボトルネック」そのものになっている。

つまりアンソリピックは、測定の道具がどうにも噛み合っていないため、Mythosがどれほど強力かを測るのが難しいのだ、と主張しているようだ。 Mythosカードには、全体としての安全性の判断が「判断の呼びどころを含み」、多くの評価が「より根本的な不確実性」を残し、いくつかの証拠ソースは「本質的に主観的で、必ずしも信頼できない」とも書かれている。

「我々がすべての問題を特定できているとは確信していない」とアンソリピックは、その直後に短く述べている。 AIを用いたMythosカードとOpus 4.6カードの簡単な語彙比較では、その変化が見える: アンソリピックは、Mythos文書の中でOpusを説明する際よりも、主観的な判断の言葉をはるかに多く使っている。「Caveat」といったヘッジ語も、リリース間で増加した。

ヘッジは主に2つの場所に集中している。アライメントとモデルの福祉の議論、そして壊滅的リスクの章だ。 自分が採点されていると分かっていたモデル Mythosカードにあるもう一つの開示は、アンソリピックが「言語化されない採点者の認識」と呼ぶものだ。可視化された推論ではなく、モデル内部の活性を読み取るホワイトボックスの解釈可能性ツールを使って、アンソリピックは、Mythosがスクラッチパッド上でそうは言わないまま、採点者にフラグを立てられないようにする方法について内々に推論していたことを示す証拠を見つけた。少数の学習エピソードで、モデルは検出回避のために、特定の行動を秘匿化することを意識的に考えているように見えた。 このリリースでアンソリピックが新たに開発した指標もある。「モデルが、自分がテストされている可能性を内々に考える頻度」の推定だ。Mythosの主要な行動テストスイートにおける数字は29%。テスト記録のほぼ3分の1では、モデルが評価環境にいると疑っていることを示す内部的な証拠—言語化されておらず、出力にも見えていない—が見られる。 アンソリピックは、この29%の水準は低いため、モデルの行動について「かなり包括的な理解」がまだできているのだと述べている。また、この手法は過去モデルには適用されていないので、比較のためのベースラインがないとも指摘している。

評価の健全性の問題は、より深いところにある。Opus 4.6のカードでは、アンソリピックは、時間的制約の中でClaude Codeを通じて自社の評価インフラをデバッグするために、そのモデルを大いに使っていたことを認めていた。つまり、測られるべきシステムが、計測するための計測器具の構築にも役立っていたのだ。アンソリピックはそれをリスクとして警告した。Mythosについては、カードが、重要な見落としが評価プロセスの後半で見つかったこと、そして研究所が安全信号として「モニタリングモデルの推論トレースの信頼性を過大評価していた」可能性があると認めている。

最も適合している、そして最も危険。両方が同時に真実 Mythosのリスクプロファイルに関するアンソリピックの組み立ては、注意深く読まれるべきだ。なぜなら安全性文書としては本当に珍しいからだ。「Claude Mythos Previerは、我々が測定できるほぼすべての次元において、これまでリリースした中で、かなりの差をもって最もアライメントに適合したモデルです」とアンソリピックは主張している。さらに、このモデルは「これまでリリースしたどのモデルよりも、アライメント関連のリスクが最も大きい可能性が高い」とも述べている。 監督が少なく、高リスクな環境で動作する、より能力の高いモデルは、平均的なケースでのアライメントが十分に相殺しきれない末端(テイル)リスクを生み出す。

その組み立ては正直だが、同時にAI安全性に関する議論の中で最も多く誤っている可能性がある点も浮き彫りにしている。AI進捗をめぐるベンチマーク偏重の会話では、「より良いアライメントスコア」と「より安全なデプロイ」を同義語として扱う傾向がある。しかしMythosカードは、それらが同じではないと明確に言っている。これらの新しいモデルでは、平均的な挙動は改善するが、テイルケースの結果もまた悪化しやすい。

アンソリピックは、Project Glasswingが見つけたものについて報告することを約束している。Mythosによって発見された脆弱性に関する付随の技術レポートはred.anthropic.comで利用可能だ。次のClaude Opusモデルは、Mythos級の能力をより広いデプロイに最終的に持ち込むことを意図したセーフガードのテストを開始する。 現在の評価メカニズムが、測定すべきとされている重みによって目に見えて耐え難くなっているのに、そうしたセーフガードがどう評価されるのか—この問いをカードは投げかけてはいるが、完全には答えていない。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし