グーグルリサーチが最近公開した人工知能(AI)推論最適化技術「ターボクアント(TurboQuant)」を機に、グローバルなメモリ半導体企業の株価が揺れた。AI演算過程でメモリ使用量を画期的に減らせる点が浮上し、高帯域幅メモリ(HBM)を含むメモリ需要の鈍化懸念が広がった影響である。
実際、25日(現地時間)のニューヨーク株式市場でマイクロン・テクノロジーの株価は3.4%下落し、5営業日連続で軟調となった。余波は韓国の株式市場にも及び、26日にサムスン電子は4.71%下落の18万100ウォン、SKハイニックスは6.23%急落の93万3000ウォンで取引を終えた。グーグル発の「効率化ショック」で投資心理が急速に冷え込んだ結果である。
今回の論争の中心にあるターボクアントは、大規模言語モデル(LLM)が会話文脈を記憶する倉庫の役割を担う「KV(Key-Value)キャッシュ」を圧縮するアルゴリズムである。従来方式が単にデータの精度を下げて情報を損失させたのに対し、ターボクアントはデータの座標系自体を変換する「ベクトル量子化」方式を用いる。まるで旅行カバンに衣類をそのまま入れるのではなく、真空圧縮パックで体積だけ減らして収納するようなものだ。これにより正確度の損失なしにKVキャッシュのメモリ使用量を最低6倍削減し、エヌビディアH100グラフィックス処理装置(GPU)環境で演算速度を最大8倍まで引き上げる革新を示した。
ただし、市場の一部で提起された「メモリ需要減少」という解釈は性急だとする反論が支配的である。メモリ需要を牽引する本質は単純な効率改善ではなく、モデル規模の飛躍的拡大やマルチモーダル(Multi-modal)拡張などの構造的変化にあるためだ。とりわけテキストを超え、高解像度の映像と音声を同時に処理しなければならないマルチモーダル環境では、記憶すべき情報量が指数関数的に増加するが、ターボクアントのような圧縮技術は、むしろこのような高難度サービスの商用化を早め、より多くのメモリ搭載を促すことになる。
グローバル投資銀行(IB)も、今回の技術革新がかえってハイパースケーラーの投資を触発すると見通した。モルガン・スタンレーはリポートで「ターボクアントは全体メモリではなくKVキャッシュ領域を効率化するものだ」とし、「推論コストの低下は、これまでコスト負担でAI導入をためらっていた企業を大量に呼び込み、結果的に全体メモリ需要を拡大させる」と診断した。ゴールドマン・サックスも「コスト削減はハイパースケーラーの投資対比収益率(ROI)を高め、インフラ投資を一層アグレッシブにする起爆剤となる」と分析した。
実際、AI産業ではコスト削減がすなわち需要増加につながる「ジェボンズの逆説」が繰り返されている。モデル効率が改善されトークン当たりのコストが下がるほど、これまでコスト負担で制約されていた長文分析やリアルタイム・マルチモーダルサービスが爆発的に増え、結果として全体メモリ需要を押し上げる好循環構造が形成されるということだ。
韓国のメモリ半導体業界関係者は「技術的効率化は、むしろより多くの推論需要を誘発する可能性が大きい」とし、「AIデータセンター投資が急増する状況で、これを需要減退とみなすのは過度な懸念だ」と分析した。続けて「グーグル、Meta(メタ)、オープンAIなど主要企業間の競争が続く限り、より高い性能に向けたメモリ需要の鈍化を論じるのは早い」と付け加えた。