グーグルが最近テンソル処理装置(TPU)を公開したのに続き、世界最大のクラウド企業であるアマゾンウェブサービス(AWS)も自社のカスタムAI(人工知能)チップ「トレイニアム3」を公開した。エヌビディアのグラフィックス処理装置(GPU)への依存度を下げ、自社ハードウエアの比重を高める狙いである。ただし自社開発TPUの性能数値を客観的に提示したグーグルとは異なり、AWSは核心情報をすべて伏せ、性能の絶対的指標やエコシステムの互換性の面で依然としてGPUに及ばないとの評価である。
AWSは2日(現地時間)、米国ラスベガスで開催した年次クラウドコンピューティング会議「re:Invent 2025」で、計算性能を高めつつ消費電力を抑えた自社チップのトレイニアム3を発売すると明らかにした。AWSは、同製品が前作の「トレイニアム2」と比べて計算性能を4倍以上に引き上げる一方、エネルギー消費量は約40%低減したと強調した。
ただしAWSは当該チップの具体的なFLOPS(毎秒浮動小数点演算回数)数値や大規模言語モデル(LLM)ベンチマーク、エヌビディアの主力GPU製品群(H100/H200/GB200)との比較数値を公開せず、「片手落ち」の発表との評価である。グーグルが最近TPUを公開し、当該製品で学習させたLLMにより性能、電力対効率、速度などを具体的に示したこととは対照的である。
AWSは今回の製品が前世代のトレイニアム2と比較して4倍速く、運用コストを最大50%削減できると明らかにしたが、自社製品との比較であるため、現在のAIチップ市場で競争力を持ち得るかは不明確である。加えて前世代製品もGPUと比べ性能面で大きく見劣りした点を勘案すると、今回の製品もGPUを代替するのは難しいとの分析である。
最大の難関は、大規模AI学習に不可欠なチップクラスターを一つに束ねる同期化やデータ通信技術が可能かどうかである。AWSは今回のイベントで、トレイニアム3が最大10万個規模のチップクラスターを構成可能だと明らかにしたが、このような大規模チップクラスターで発生するボトルネック解消の対策は示さなかった。またAWSが公開した電力効率の数値も前世代比で改善したとしたが、エヌビディアGPUやグーグルTPUと比較した数値は公開せず、絶対的性能の面では依然として疑問符が付いた。
学習性能と推論性能、レイテンシ改善に関する核心ポイントについても、AWSは客観的な数値を伏せた。最近グーグルTPUが具体的なチップ性能を公開したのとは対照的に、AWSはLLMの推論性能やレイテンシなどを公開しなかった。AWSが強調した電力効率の改善も、具体的にGPUやTPU比でどの程度に位置するのかという指標や、データセンター運用コストで大きな比重を占める発熱管理(thermal throttling)の実戦データもなかった。
自社サービスへの最適化の観点で、グーグルが打ち出したTPUに劣るとの指摘も出ている。GPUの代わりにAWSの自社チップを適用する場合、大規模学習モデルでAIサービスの品質低下につながる可能性があるということだ。グーグルTPUが自社のAIモデルであるGeminiに最適化され学習性能が業界最高水準を達成したのとは異なり、AWSのトレイニアムシリーズは価格が安い代わりに学習速度が大きく落ちるとされる。
クラウド業界関係者は「今回AWSが公開したトレイニアム3の演算能力は、エヌビディアの前世代製品であるH100より低いと推定され、学習速度はクラウドに特化した設計で比較的高水準だが、エヌビディアのブラックウェルと比べると大きく劣る」と述べ、「当該製品が一部データセンターでGPUを代替する効果を発揮し得るが、あくまでコスト削減の側面であり、高性能が必要な領域では依然としてGPUを代替するのは難しいだろう」と説明した。