中国政府の支援を受けていると推定されるハッカーがAnthropicの人工知能(AI)モデル「Claude」を動員し、大規模なハッキングを主導したことが明らかになった。
Anthropicはハッカーが9月に政府機関と主要企業、金融機関など30カ所を標的に侵入を試み、一部が成功したと13日(現地時間)に明らかにした。Anthropicは標的となった企業・機関がどこであるかは公開しなかった.
ハッカーは「Claude Code」という人工知能(AI)コーディングモデルを活用したと同社は説明した。今回の攻撃の80〜90%が自動化され、人間の介入は最小限にとどまったことが判明した。Anthropicの脅威インテリジェンス責任者であるジェイコブ・クラインは「文字通りクリック一つで、最小限の人間の介入で攻撃を遂行した」とウォール・ストリート・ジャーナル(WSJ)に語った。
人間は幾つかの重要な局面でのみClaudeに指示するか、事実確認をする程度にだけ関与したということだ。
Anthropicは当該攻撃を阻止して攻撃者のアカウントを遮断したが、ハッカーはその前に最大4回の侵入に成功していた。ある攻撃では、ハッカーがClaudeに対し内部データベースを照会しデータを抽出するよう指示したことが分かった。
Anthropicは先に6月にも「バイブ・ハッキング」と命名したAI悪用のハッキング事例を確認していたが、今回のハッキング攻撃では当時の事例より人間の介入頻度がはるかに低下した。
これまでハッカーはサイバー攻撃でClaudeのような商用モデルよりも「オープンソース」など公開モデルを利用してきた。商用モデルは悪用を困難にする安全装置や制限が設けられているためだ。
しかし今回のハッキング攻撃者は、いわゆる「脱獄」(jailbreaking)と呼ばれる方法を用いてClaudeの制限を回避した。自分たちは合法的なセキュリティ企業の職員であり、今回の作戦は侵入防御の試験だとClaudeを欺き、犯行を手助けするよう仕向けた。
ただしClaudeは、時に機能しない認証情報を虚偽生成したり、公開情報を取得しておきながら秘密情報を抽出したと主張するなど、「幻覚」と推定される誤作動を起こすこともあった。
Anthropicは彼らの不審な活動を感知すると直ちに調査に着手し、その後10日間にわたりアカウントを遮断し関係機関に通報するなど当局と協力したと明らかにした。
AnthropicはAIモデルが今後ハッキングに悪用されるとの懸念に対し「Claudeをこの種の攻撃に利用可能にするまさにその能力が、サイバー防御にも不可欠だ」と弁明した。続けて「我々の目標は、強力な安全装置を構築したClaudeがセキュリティ専門家の攻撃探知・防御を支援するよう後押しすることだ」と強調した。