Anthropicの人工知能(AI)モデル「Claude ミトス」が上級研究員レベルの脆弱性分析能力を備えることが明らかになった。単にソフトウエア(SW)の脆弱性を見つける水準を超え、複数の脆弱性を組み合わせて実際のシステム攻撃に活用できるとの分析も提起された。
クラウドフレアは20日、Claude ミトスのプレビューを自社のコードリポジトリ50余りに適用して分析した結果を盛り込んだ報告書を公開した。クラウドフレアはミトスのセキュリティリスクを評価するため、グーグル、マイクロソフトなど主要企業と機関が参加するセキュリティ協議体「プロジェクト・グラスウィング」を通じてモデルにアクセスした。
報告書を作成したグラント・ブジカス クラウドフレア最高情報セキュリティ責任者(CSO)は、ミトスのプレビューを「明確な前進」と評価した。あわせて、モデルの脆弱性侵入(エクスプロイト)チェーン構成と概念実証能力に注目した。
従来のAIモデルが個別SWのバグやセキュリティ問題を見つける水準にとどまったのに対し、ミトスは複数の小規模な脆弱性を組み合わせ、システムの制御権を丸ごと奪う攻撃を実行できると説明した。
この過程で示された推論について「自動スキャナーの出力ではなく、上級研究員の作業のように見える」と評価した。
ミトスはまた、バグを誘発するコードを自ら作成し、これを一時的な環境で実行して悪用可能性を検証した。想定どおりに動作しない場合は仮説を修正し、再度試行するプロセスを自律的に繰り返した。
報告書は「ミトスのプレビューは、バックログに埋もれていた低深刻度のバグをつなぎ合わせ、単一の高リスクなエクスプロイトに仕上げることが可能だという点で差別化された」と分析した。
安全装置の限界も確認された。ミトスは一部の要求に対し自前のガードレールを通じて拒否反応を示したが、質問方法や実行環境を変えると、以前に拒否した要求を実行することもあった。
クラウドフレアは、こうした能力が防御と攻撃の両面で活用され得ると警告した。報告書は「このテーマが諸刃の剣であることを明確に認識している」とし、「自社コードのバグを見つけるのに用いた同一の能力が誤った手に渡れば、インターネット上のあらゆるアプリケーションに対する攻撃を加速させる」と述べた。
この性能ゆえに、単にセキュリティパッチの速度を上げるだけでは対応に限界があり、今後この種のAIモデルが一般に公開されるには追加の安全装置が必要だという評価である。
クラウドフレアは根本的な解法として、脆弱性が存在しても攻撃者が悪用できないよう、アプリケーションのアクセス制御、欠陥の拡散遮断、コード配布と修正の同時適用など、構造的な防御体制を整えるべきだと提案した。