「ターボクアントという一つのアルゴリズムがハードウエアやメモリー市場にまで影響を及ぼすのを見て大いに驚いた」
ハン・インスKAIST電気及び電子工学部教授は30日、オンラインで開かれた研究成果説明会で、グーグルが公開した人工知能(AI)メモリー圧縮アルゴリズム「ターボクアント(TurboQuant)」を紹介し、こう述べた。ハン・インス教授は今回の事例はAI競争力を左右する変数が半導体・ハードウエアだけにあるわけではないことを示すものであり、今後はハードウエアとソフトウエアの共同最適化が重要になると語った。
ターボクアントは、AIが回答を生成するために一時的に保存しておく情報をより小さく圧縮し、メモリー負担を減らす技術である。例えば大規模言語モデル(LLM)は、対話が長くなるほど以前の文脈や中間計算の結果を蓄積し続けるため、メモリー使用量が急速に増え、コストと処理時間もともに増加する。ターボクアントはこうしたボトルネックを減らすために考案された。
ハン教授は2024年にKAISTに着任した後、昨年からグーグルリサーチの客員研究員として共同研究を続けている。米国イェール大学のポスドク時代から続く共同研究者のつながりが協業の背景となった。この過程でターボクアントの基盤となったポラクアント(PolarQuant)とQJL(Quantized Johnson-Lindenstrauss)の研究に参加した。ターボクアントの第1段階の量子化(情報をより少ない値で表現する過程)にはポラクアントのランダム回転のアイデアが、第2段階の誤差補正にはQJLの研究が反映された。
ハン教授はターボクアントの強みとして、実用性と理論的検証を併せ持つ点を挙げた。AI圧縮技術は通常、性能指標中心で紹介されがちだが、ターボクアントはアルゴリズムがなぜ機能するのか、どの程度まで性能を発揮できるのかを理論的に説明できるという。続けて「今回のターボクアントの事例は、AI競争力がもはや半導体やハードウエアだけの問題ではなく、それをいかに効率的に駆動させるソフトウエアを設計するかによっても大きく変わり得ることを示す」と付け加えた。
ハン教授はターボクアントの長所として、実用性と理論的検証をともに備えた点を挙げた。AI圧縮技術は通常、性能数値中心で紹介されやすいが、ターボクアントはアルゴリズムがなぜ作動するのか、どの程度まで性能を出せるのかを理論的に説明できるという。
そのうえで実用化の可能性について比較的楽観的な評価を示した。ハン教授は「すでに関連の実装コードがオンラインで公開されており、技術を正確に理解すればコードをAIモデルに適用するのに大きな難しさはないだろう」とし、「別途の再学習や複雑なチューニングなしに事前学習済み言語モデルに直ちに適用でき、早期に実際の性能が検証され得る」と述べた。
ターボクアントはオンデバイスAI環境でも活用可能性が高いとの評価を受ける。メモリー使用量が減る分、機器内メモリーとネットワークの制約が大きい環境でもAIをより効率的に駆動できるためだ。個人が自身のデータでパーソナライズしたAIモデルを端末内で直接実行しやすくなり、データが外部に出ない分、情報セキュリティの面での利点も大きくなり得る。ハン教授は、セキュリティが重要な軍事分野もこうした変化の影響を受け得る領域として言及した。
ただしハン教授は、長期的に効率をさらに引き上げるにはソフトウエアだけでは限界があるとみる。現在はメモリーを節約するために値を圧縮して保存しても、実際の計算段階ではこれを再び解凍して用いる過程が必要となり追加コストが発生し得るためだ。もし圧縮した値を別途の復元なしに直接演算できるハードウエアが登場すれば、メモリー削減だけでなく演算速度と電力効率まで同時に改善される可能性があるという。
ハン教授は「こうした点から、AIの効率化にはハードウエアとソフトウエアの共同最適化が重要になる」とし、「今後もグーグルリサーチとフォローアップ研究を続け、AI推論演算をより効率化する方向の研究を継続する計画だ」と明らかにした。