Anthropic オープンソース AI セキュリティワークフロー:7段階の自動脆弱性検出、検証からパッチ生成まで

AnthropicはClaudeを駆動する自動化セキュリティパイプラインをオープンソース化しました。
システム全体は脆弱性の発見、複数の検証、パッチ生成までをAIが代理協力して行い、どんなセキュリティチームでも自前で構築して利用できるようになっています。
(前提:Anthropic:「Mythos Preview」モデルの意思決定能力は人間の専門家を凌駕し、勝率は64%に達する)
(補足:ブルームバーグ報道:Claude Mythosは未承認アクセスを受けている!Anthropicが最も防ぎにくい脆弱性は「人間」だ)

この記事の目次

Toggle

  • 七つの段階、自己検証のワークフロー
  • 二つの道、一つの選択
  • 同じツールで壁が突き崩されている

Anthropic傘下のClaude Opusは、過去に多くのオープンソースリポジトリで数百のセキュリティ脆弱性を発見しています。
これらの脆弱性は「長年専門家の審査を経ても気付かれなかった」ものであり、人工審査の構造的な限界を浮き彫りにしています。

最近、Anthropicはこの自動脆弱性発見、多重検証、最終的なパッチ生成のパイプライン全体をGitHubでオープンソース化しました。
どんなセキュリティチームでも自前で構築・カスタマイズ・自分のコードに移植できるようになっています。

七つの段階、自己検証のワークフロー

このシステムは「Defending Code Reference Harness」と呼ばれ、七段階の自動化パイプラインを核としています。

Build(ビルド)、Recon(偵察)、Find(脆弱性探索)、Verify(検証)、Dedupe(重複排除)、Report(報告)、Patch(パッチ適用)。
各段階には独立したAIエージェントが担当し、前後の段階間では最小限の情報だけを伝達し、後段に前段の推論や主観的判断の汚染を防ぎます。

Build段階ではターゲットソフトウェアをASAN(AddressSanitizer)を搭載したイメージにコンパイルします。
ASANはメモリ安全性の「地雷検知器」であり、実行時に不正なメモリアクセスを検知すると即座に警報を鳴らします。
このイメージは後続のすべての段階で共有され、各AIエージェントが完全に同じコード環境を見ることを保証します。

Find段階はシステムのエンジンです。
N個の並列AIエージェントが隔離コンテナ内で動作し、ソースコードを読み込み、悪意のある入力を生成します。
この「悪意のある入力」の作成方法は、一般的には模糊テストと呼ばれ、奇妙なデータや境界超過のデータをプログラムに投げてクラッシュするかを試します。

エージェントは、同一のクラッシュが安定して3回再現された場合にのみ、その発見を提出します。
これは誤検知を排除するためです。誤検知は「正常な挙動を脆弱性と誤認する」ことであり、セキュリティツールの最も批判されるポイントです。

Anthropicは特に、多重検証メカニズムを採用しており、報告される脆弱性には信頼度スコアと深刻度のレベルを付与しています。

次にVerifyです。
新たなエージェントが独立したコンテナ内で、証明済みのPoC(Proof of Concept)を再実行します。
これは「脆弱性の存在を証明する最小の実行可能コード」を用いるもので、PoCのバイナリだけがコンテナ間で流通します。
検証エージェントは前段の推論過程を知らず、結論の独立性を確保します。

Report段階では、各脆弱性について詳細な利用可能性分析を生成します。
また、別の独立した評価エージェントが報告の論点に対し、ソースコードの行番号や実行結果と照合して正当性を検証します。
最終的に、パッチ候補を生成する前に人間の確認を経る必要があります。

この全システムはgVisorサンドボックス上で動作します。
gVisorはOSカーネル層で隔離を行う軽量仮想化技術であり、AIエージェントがコンテナ内で何を実行してもホストのファイルシステムにアクセスできず、ネットワークもClaude APIへの出口だけに制限され、情報漏洩を防ぎます。

二つの道、一つの選択

このシステムは二つの利用パスを提供します。
複雑さの差は大きく、Anthropicはシンプルな方から始めることを推奨しています。

第一の道:インタラクティブスキル(Interactive Skills)。
わずか四行のコマンドで完結します。

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

/quickstartを実行すると、デモ対象に対して完全なインタラクションの流れを体験できます:
脅威モデリング → 静的脆弱性スキャン → 人力による分類と重複排除 → パッチ生成。
コンテナ環境は不要で、まずは流れを理解してから自動化に進むのに適しています。

第二の道:自動化パイプライン(Autonomous Pipeline)。
gVisorサンドボックスのインストールとANTHROPIC_API_KEYの設定が必要です。
これにより、実際のターゲットに対して七段階の完全な処理を実行し、信頼度スコア付きの脆弱性レポートと候補パッチを出力します。
GitHubリポジトリにはdrlibsという脆弱性例のライブラリが付属しており、まずはこれで練習し、その後自分のターゲットに置き換えることを推奨します。

Anthropicの推奨リズムは:
1日目にインタラクティブ全工程を完了し、
2日目に自動化パイプラインでC/C++ターゲットを実行、
3日目から5日目は/customizeスキルを使って他言語や脆弱性タイプに移植します。

ファイルには次の言葉が記されています:「成功するチームは、完璧なパイプラインを先に設計しようとせず、まず動かしてみて、そこから改善を重ねる。」

壁は同じツールで突き崩されている

このセキュリティ攻防の非対称性は、長年にわたり構造的なものです。
攻撃者は一つの入口さえ見つければよいのに対し、防御側はすべての隙間を塞ぐ必要があります。

GhostScript、OpenSC、CGIFなどのターゲットは、いずれも成熟した広く展開されているオープンソースプロジェクトです。
潜伏していた数十年の脆弱性も、Claude Opusがコミット履歴を自主的に読み解き、不完全な修正を推測し、別ファイルのロジックを追跡し、実行可能なPoCを組み立てるまで気付かれませんでした。
この過程はルールの照合ではなく、推論によるものです。

Anthropicは二つのルートを提供しています。
完全なコントロールを望むチーム向けのオープンソース版「Defending Code Reference Harness」と、
gVisorの設定やインフラ管理不要の商用完全托管版「Claude Security」です。

オープンソース版は透明性とコントロールを、
托管版は導入の手軽さを提供します。
両者の背後には、Anthropicが防御型セキュリティツールをインフラの基盤に位置付ける戦略的意図があります。

脆弱性発見能力は、かつては資源を持つトップレッドチームを雇う大規模組織だけのものでした。
しかし今やこのパイプラインはオープンになり、防御側と攻撃側の非対称な壁は、同じツールによって両側から突き崩されつつあります。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし