「ターボクアンツはグーグル版ディープシークだ。」マシュー・プリンス クラウドフレア最高経営責任者(CEO)
グーグルが人工知能(AI)モデルのメモリー使用量を画期的に削減する新技術「ターボクアンツ(TurboQuant)」を公開した後、グローバル半導体市場が動揺している。いずれターボクアンツ技術が商用化されればメモリー半導体需要が大きく減少しかねないとの懸念から、サムスン電子、SKハイニックス、マイクロンなど主要半導体企業の株価が軟調となった。市場はグーグル・ターボクアンツの波及力を、昨年低コスト・高性能AIモデルでAI産業に衝撃を与えた中国「DeepSeek(ディープシーク)ショック」に例えている。
まだ論文段階のこの技術が今後AIインフラ市場にどのような影響を及ぼすか、業界の関心が集まっている。
グーグルリサーチは24日(現地時間)、自社ブログで量子化アルゴリズムであるターボクアンツを紹介し「極端な圧縮でAI効率を再定義した」と説明した。グーグルによると、ターボクアンツは性能や正確度の低下なしにAIモデルのサイズを縮小する圧縮手法で、巨大言語モデル(LLM)のメモリー使用量を現在の6分の1水準に減らし、演算速度を8倍高める技術である。
ChatGPTやGemini、ClaudeなどのAIチャットボットでユーザーが質問(プロンプト)を入力すると、AIは次のような推論過程を経て回答を出す。まずユーザーが書いた文章を単語・文字単位の「トークン」に細かく分割し、トークンを数値の配列である「ベクトル」形式に変換する。その後、単語間の関係と重要度を計算する「文脈(コンテクスト)理解」を経て、次に来る単語を確率的に予測し、この過程を反復しながら1語ずつつなぎ合わせて最終回答を生成する。
AIはユーザーとの対話が長くなると、以前の対話記録など文脈情報を参照して回答を提供する。このとき、先に処理した文脈情報を次の回答に迅速に活用するため、KV(Key・Value)キャッシュという「一時保存領域」に保存しておく。問題は対話が長くなるほどKVキャッシュに保存すべき情報が増え、メモリー使用量が増加し、応答速度も遅くなるボトルネック現象が生じる点である。
ターボクアンツ技術は、このKVキャッシュを圧縮してメモリー使用量を減らす一方で性能を維持することに重点を置いている。圧縮は文脈情報のサイズを減らす技術である「極座標量子化(ポラクアンツ)」で、性能維持は誤差を抑える技術である「QJL(量子化ジョンソン–リンデンシュトラウス変換)」アルゴリズムを活用して達成する。
まずポラクアンツ技術は、AIが扱うデータをランダムに回転させ、構造を圧縮しやすい単純な形にしてくれる。データ構造を直交座標系から極座標系に切り替えながらサイズを縮小する原理である。例えば「東へ3マス、北へ4マス進め」という指示を「37度の角度で5マス進め」という指示に置き換えるようなものだ。圧縮過程で発生し得る誤差はQJLアルゴリズムで補完する。わずか1ビットだけを消費するこの技術は、ほとんどメモリーを使わずに小さな誤差を取り除く役割を果たす。
グーグルリサーチはターボクアンツをミストラルなどのAIモデルに適用して実験した。長文の中から小さく些細な情報を見つけ出す「干し草の山から針を探す(needle-in-haystack)」実験にターボクアンツを適用した結果、必要な情報を正確に抽出しつつ、KVキャッシュのメモリー使用量を従来モデルの6分の1水準に減らすことに成功した。一般的にKVキャッシュは32ビットや16ビットで保存されるが、グーグルはターボクアンツにより正確度の毀損なしにKVキャッシュを3ビット水準に圧縮できると説明した。少ない資源で複雑かつ長い文脈を処理できるという説明である。
また、エヌビディアのH100グラフィックス処理装置(GPU)を基準に演算速度は最大8倍まで速くなったと付け加えた。
グーグルがターボクアンツのような新技術を継続的に研究・披露する理由は、同社の主力事業である検索と新成長ドライバーであるAIの効率を高めるためである。検索広告はグーグルの年間売上の半分以上を占める核心収益源だ。しかしAIの登場でグーグルの「検索王国」の牙城が脅かされ、グーグルも検索にAIを接合する形で変化に対応している。
検索は速度と正確性が生命線だが、検索がAIと結合した形に変わり、推論と演算需要が指数関数的に増え、メモリー使用量も膨らむ傾向にある。グーグルはAI基盤の検索と自社AIモデル「Gemini」の速度および性能が阻害される可能性を低減し、メモリー使用増加に伴うコスト負担を抑える解決策の模索に集中している。
まだ論文レベルの研究だが、グーグルは当該技術が商用化される場合「GeminiのKVキャッシュのボトルネック問題を解決するのに応用できる」と評価した。グーグルはブログで「今日の検索は単に入力した語と一致する情報を探すだけでなく、ユーザーの検索意図と文脈的意味を把握する意味基盤検索(semantic search)へと進化している」とし、「これには『ベクトル検索』、すなわち数十億個のベクトルデータの中から意味的に最も近い結果を見つける能力が必要で、ターボクアンツはこの目標を達成するうえで中核的役割を果たす」と説明した。
続けて「AIがLLMから意味基盤検索に至るまであらゆる製品にますます深く統合されるにつれ、この種の研究の重要性は今後さらに高まる」と付け加えた。
先にグーグルリサーチはターボクアンツに関する内容を盛り込んだ報告書を昨年4月に「アーカイブ」に掲載しており、今週自社ブログに載せた関連記事が突如市場の注目を集め、半導体市場を揺さぶった。グーグルは4月に開かれるAI国際学術大会「ICLR 2026」で当該研究を正式発表し、具体的な性能と適用範囲に関する追加検証結果も公開する予定だ。