グーグルが最近公開した人工知能(AI)メモリ圧縮アルゴリズム「ターボクアント(TurboQuant)」が注目を集めている。特に今回のターボクアント研究に参加したハン・インス電気および電子工学部教授は、ターボクアントがAIのメモリボトルネックを減らして産業全般の効率を高め、メモリ半導体市場にも中長期的な変化をもたらし得ると展望した。
カイストはハン・インス電気および電子工学部教授が参加したグーグルリサーチ、ディープマインド、ニューヨーク大学の共同研究チームがAIメモリ過負荷問題を解決する次世代量子化アルゴリズム「ターボクアント」を公開したと27日明らかにした。
大規模言語モデル(LLM)は質問と回答の文脈を理解するために先行する情報を継続的に保存しながら動作する。会話が長くなるほど保存すべき情報も増えるため、必要なメモリ容量も急速に大きくなる。このためAIをより速く安価に運用するうえで最大の障害の一つとしてメモリボトルネックが挙げられてきた。
グーグルはこうした問題を解決するために圧縮技術「ターボクアント」を開発した。AIモデルのメモリ使用量を最大6倍まで減らしつつも性能低下はほとんどないように設計された。
核心は量子化である。量子化は平たく言えば、複雑な数値データをより単純な形に変えて保存する技術だ。例えば小数点が長い数値をより簡単な数値に置き換えて表現しても、重要な情報さえうまく残せば全体の性能には大きな影響を与えない可能性がある。写真ファイルの容量を減らしつつ画質低下を最小化するのと似た原理だ。こうした方式を使えば保存空間は減り、計算速度は速くなる。
ターボクアント技術は2段階方式で作動する。まず第1段階では入力データを無作為に回転させた後、各要素をそれぞれ圧縮する。こうすると特異に大きい値や外れ値を減らせるため、全体データをより効率的に圧縮できる。この方式はハン教授が先に参加した「ポーラクアント(PolarQuant)」研究でも活用された経緯がある。
第2段階では第1段階で生じた誤差まで改めて圧縮する。この過程ではデータを-1と1の二つの値だけで表現するQJL(Quantized Johnson-Lindenstrauss)手法が適用される。複雑な計算負荷を下げつつもモデル性能を維持できるようにした。
ハン教授は今回の技術がメモリ半導体市場にも中長期的に肯定的な影響を与え得るとみている。短期的には同じAIモデルを駆動するのに必要なメモリ容量が減ることで需要の増加ペースが一時的に鈍化して見える可能性がある。しかし長期的にはAIをより安価かつ容易に活用できるようになり、市場全体を拡大する契機になり得るという説明だ。AIが広く普及すれば、半導体も単に量を多く要する段階を越えて、より効率的で高度化された製品への需要が増える可能性が大きいという意味である。
ハン教授は「今回の研究はAIメモリ使用量増加に伴うボトルネック現象を効果的に減らしつつ正確度を維持できる新たな方向性を示した」と述べ、「大規模AIモデルをさらに効率的に運用するための核心基盤技術として活用されると期待する」と語った。
一方、ポーラクアント研究は5月に開かれるAI・統計分野の国際学会AISTATS(Artificial Intelligence and Statistics)で発表される予定である.