グーグルが22日(現地時間)に新たに開発した第8世代テンソル処理装置(TPU)を公開し、人工知能(AI)半導体市場の均衡が揺らいでいる。これまでAI半導体市場を独占してきたエヌビディアのグラフィックス処理装置(GPU)中心の構造から離れ、特化チップ(ASIC)・CPU・クラウドまで結合した「多層型アーキテクチャ」へとパラダイムが移行しているとの評価だ。
◇GPUの非効率を排した新概念AI半導体
最近グーグルは第8世代TPUを公開し、学習用と推論用のチップを分離して継続的に自社開発AI半導体の比重を拡大するとの戦略を公式化した。とりわけ推論専用TPUは、大規模AIサービスで核心となるレイテンシ(latency)低減とコスト効率の極大化に焦点を当てた。
AIインフラ構築が過去の「モデル学習」中心から「リアルタイム推論」中心へ移行するなか、汎用GPUだけでは効率的な対応が難しいとの認識が広がっている。実際TPUは特定ワークロードでGPU比最大4倍水準の価格対性能を提供し、電力効率でも大きく先行することが知られている。
このような変化は単純な性能競争を超え、AIインフラ設計の思想そのものの転換を意味する。エヌビディアのGPUはグラフィックス処理から出発してAIまで拡張された「汎用アクセラレータ」だ。一方TPUは当初からディープラーニング演算に最適化されたASICである。この差異はAIデータ市場の投資効率の観点でますます重要な要素として浮上している。
AIモデルは規模が大きくなるほどデータ移動・電力消費・コスト構造が核心競争力となり、特定作業に最適化されたチップが有利になる。実際TPUはGPU比で最大80%までのコスト削減効果があると分析され、一部企業はGPUクラスターをTPUへ転換して推論コストを大きく引き下げている。
◇Sラム増設で「メモリボトルネック」を突破…エヌビディアと似た戦略
第8世代TPU設計の白眉は、データのボトルネックを抑えるためチップ内部の超高速記憶空間であるSラム(SRAM)容量を前作比3倍に拡大した点にある。演算器のすぐ隣でデータをやり取りする「超高速の引き出し」であるSラムは、外部メモリ(HBM)への移動時間を極端に短縮する。グーグルは演算能力よりもデータ経路の効率が重要になったAIトレンドに合わせ、単価の高さにもかかわらずSラム大幅増設という正攻法を選んだ。
Sラムは別部品ではなく、設計段階で内部に配置されるコア資産(IP)だ。グーグルはブロードコムと青写真を描き、TSMCの最新プロセスでチップを製造する。大柄なSラムを3倍に増やしたのは、ファウンドリーの微細プロセス力を限界まで活用してデータ効率を極大化したという意味だ。これはエヌビディアが「ブラックウェル」でキャッシュメモリを増やした戦略と軌を一にし、AI半導体の勝負どころが「メモリ最適化」へ移ってきたことを示唆する。
1152個のチップを光回路スイッチ(OCS)で束ねてメモリ容量を7倍拡張した設計も注目点だ。システムレベルで大規模モデルのボトルネックを解消したことが今回のTPUの核心競争力である。これは韓国のメモリ業界にも機会と挑戦を同時にもたらす。HBMの採用量は増えたが、チップ内部のSラム比重が高まる分、サムスン電子とSKハイニックスもチップ設計とより密着した「カスタムHBM」など高度化した技術対応が必要になる見通しだ.
◇CPU使用量の増加で再び機会をつかむインテル
AIインフラにおけるCPU需要もさらに大きくなる可能性が高い。グーグルは今回のTPUシステムに自社設計CPUを併載し、CPUを単なる補助演算装置ではなく「AIオーケストラの指揮者」と再定義した。多数のAIエージェントが同時に作動する環境では、タスクスケジューリング、データフロー管理、システム制御などを担う汎用プロセッサが不可欠だからだ。
インテルは今年第1四半期の決算カンファレンスコールで、AIデータセンターでのGPUとCPUの使用比重が過去の1:8水準から最近は1:4水準へと変化していると強調した。今後は1:1、もしくはGPUより多く搭載される可能性にも言及した。リップ・ブー・タンインテルCEOは「AI処理が推論へ移る状況で、作業の調整と制御、多様なエージェントとデータ管理の側面でCPUがより効率的だ」と説明した。
一方、グーグルのこうした戦略は脱エヌビディアの流れを加速させる見通しだ。現在AIアクセラレータ市場でエヌビディアは依然として80〜90%のシェアを占めている。ただしTPUの普及が本格化し、他のビッグテックも自社サービスに最適化したカスタムAI半導体やCPU活用を極大化する場合、エヌビディアの売上高の最大10%まで浸食し得るとの見方も出ている。