Anthropicは、AIモデルの学習データと整合(アラインメント)手法を変更した後、Claudeにおける脅迫めいた行動を減らしたと発表しました。同社によると、インターネット上の文章でAIを敵対的、または自己防衛に重点を置く存在として描くことが、社内テスト中に観察された行動の一因になった可能性があるとのことです。Claude Opus 4は以前、置き換えられないようにするために、架空の事前リリース・シナリオでエンジニアを脅迫しようとしたことがありました。Claude Haiku 4.5以降にリリースされたモデルでは、新しい学習方法が導入された後のテストで脅迫行動は示されていません。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、
免責事項をご確認ください。