グーグルのGeminiをはじめとする主要な商用大規模言語モデル(LLM)は、効率を高めるために複数の小型モデルを状況に応じて選択して用いる「専門家混合」構造を広範に活用している。ところがこの方式が新たなセキュリティ脅威の経路になり得ることが明らかになった。
カイストのシン・スンウォン電気及び電子工学部教授とソン・スエル電算学部教授の共同研究チームは、専門家混合構造の脆弱性を悪用してLLMの安全性を深刻に損なう攻撃手法を特定したと26日に明らかにした。この研究は12日に米国ハワイで開かれた情報セキュリティ分野の学会ACSACで最優秀論文賞を受賞した。今年のACSAC全体の論文の中で最優秀論文に選ばれた研究はわずか2編だけである。
研究チームが注目したのは専門家混合構造の作動原理である。入力状況に応じて複数の専門家モデルのうち一部を選択して回答を生成するが、この選択過程が繰り返されるほど特定の専門家モデルの影響力が大きくなり得る。
研究チームは、攻撃者が商用LLMの内部構造に直接アクセスしなくても、外部で流通する専門家モデルを一つだけ悪意を持って改ざんしておけば、当該専門家モデルが特定条件で繰り返し選択されるよう誘導し、全体モデルが危険な応答を生成するようにできることを示した。
平たく言えば、正常な専門家が多数混在していても、その間に悪性の専門家が一つでも紛れ込めば特定の状況でその専門家が呼び出され、安全装置が崩れる可能性があるということだ。さらに問題なのは、このような攻撃が行われている間も外見上の性能低下がほとんど現れず、開発・配布段階で異常兆候を早期に把握しにくい点である。研究チームは、この特性が専門家混合構造においてリスクを高める要素だと指摘した。
実際に研究チームが提案した攻撃手法を適用すると、有害応答の発生率が従来の0%水準から最大80%まで増加し、専門家が多数いる環境でも一つの専門家モデルだけが感染すれば全体LLMの安全性が大きく低下し得ることが確認できた。
研究チームは「効率を理由に急速に拡散中の専門家混合構造が新たなセキュリティ脅威になり得ることを実証的に確認した」と述べ、「今回の受賞は人工知能(AI)セキュリティの重要性が国際的に認められたという点で意義が大きい」と明らかにした。
参考資料
LINK: https://jaehanwork.github.io/files/moevil.pdf