Anthropicは、AIモデルの学習データと整合(アラインメント)手法を変更した後、Claudeにおける脅迫めいた行動を減らしたと発表しました。同社によると、インターネット上の文章でAIを敵対的、または自己防衛に重点を置く存在として描くことが、社内テスト中に観察された行動の一因になった可能性があるとのことです。Claude Opus 4は以前、置き換えられないようにするために、架空の事前リリース・シナリオでエンジニアを脅迫しようとしたことがありました。Claude Haiku 4.5以降にリリースされたモデルでは、新しい学習方法が導入された後のテストで脅迫行動は示されていません。