xAIが米テネシー州メンフィスで運営する世界最大級のAIデータセンター「コロサス」。/xAI公式サイト

人工知能(AI)覇権競争が、GPT・Gemini・ClaudeなどAIモデル開発中心から、これを安定的に稼働させる物理的インフラへと移っている。高性能AIモデルがあっても、演算需要を処理するグラフィックス処理装置(GPU)が不足したり、莫大な電力を賄うデータセンターがなければ現実で適用できないためだ。これによりGPUを最大密度で回すAI特化データセンター、いわゆる「AIファクトリー」の開発・構築競争が米国ビッグテックとネオクラウド企業を中心に激化している。

28日、業界によると、最近のAIインフラ市場ではAIモデルの学習・推論に必要なGPUを中心に設計されたAIデータセンターが脚光を浴びている。

イーロン・マスク テスラ最高経営責任者(CEO)が率いるAI企業xAIが米国テネシー州メンフィスで運用中の世界最大規模AIデータセンター「コロッサス」が代表的な事例だ。コロッサスはAI学習に最適化した形でデータセンター構造を再設計した点が特徴である。グーグル・アマゾンウェブサービス(AWS)・マイクロソフト(MS)など既存ハイパースケーラー(大規模クラウド企業)が運用するデータセンターが多様な業務を処理するための汎用インフラであるのに対し、コロッサスはAI専用の「AIファクトリー」に近い。これに向けxAIはコロッサスのGPU集積度、冷却設計、電力供給構造、ネットワーク構成などを汎用データセンターと異なる形で設計した。

一般的にデータセンターは企画から完工まで平均2〜3年かかるが、xAIは122日でAIチップ(エヌビディアH100 GPU)10万個を搭載した超大型クラスター(サーバー集合)を構築し、その後3カ月でGPU規模を20万個水準へと2倍に拡張したと明らかにした。xAIは新たな用地にデータセンターを建てる代わりにメンフィスの旧エレクトロラックス工場を改造し、モジュール型設計を適用してデータセンター構築速度を画期的に引き上げた。モジュール型設計は標準化されたGPUサーバー・ラック・冷却施設・ネットワーク機器など中核設備を収めた装置をレゴブロックのように配置し、データセンターを迅速に拡張できるよう支援する。

汎用データセンターは空気でサーバー熱を冷ます空冷式冷却を主に用いてきたが、コロッサスは冷却水を循環させてGPUの発熱を抑える水冷式冷却(液体冷却)を活用する。最新GPUは電力消費と発熱が大きく、冷却効率がより高い液体冷却が空冷式の代替として台頭している。コロッサスの液体冷却ラック(サーバーと機器を段積みで収容する棚)1台にはGPUサーバー8台が入り、ラック下段に配置された冷却水分配装置(CDU)を通じてAIチップの熱を直接冷ます方式だ。これによりラック当たり100kW以上の高密度電力供給を可能にした。

xAIはコロッサスに移動式ガスタービン数十台とテスラの大型バッテリー「メガパック」を設置し、電力確保の課題も解決した。現在の米国ではデータセンター用地を確保しても送電網接続の承認まで3〜5年以上待機しなければならないため、敷地内に直接発電設備を備え柔軟性を確保した格好だ。

AI業界では、コロッサスの特徴である高密度GPU環境と高い冷却・電力効率、モジュール型設計などが既存ハイパースケーラーよりもネオクラウドに近いと評価する。コアウィーブ、クルソ、ネビウスなど主要ネオクラウド(AI特化インフラ企業)も、GPUを最大密度で安定運用する環境や効率的な液体冷却、迅速な構築速度などを自社AIインフラの強みとして掲げる。

韓国企業もこの流れに歩調を合わせ、AI特化データセンター事業を拡大している。NHNクラウドはAI開発と運用に必要なデータセンター・GPU・AIソフトウエアを一括提供するサービス「NHNファクトリーX」を最近投入した。会社は「ファクトリーX」が企業が確保したGPUを無駄なく最大限に活用できるよう支援すると強調した。キム・ドンフンNHNクラウド代表は「GPUを確保した企業のうちピークタイム活用率が85%を超える企業は7%にとどまる」とし「今後はAIインフラをいかに強固かつ効率的に運用するかがAI市場での成否を左右する」と述べた。

サムスンSDSは2031年までにAIデータセンターを含むAIインフラと関連の合併・買収(M&A)に10兆ウォンを投じる方針だ。その一環として現在、慶北グミに60MW(メガワット)規模のAIデータセンターを構築中である。SKテレコムもAWSなどと組み、ウルサン地域に大規模AIデータセンターを建設中だ。

AIインフラ企業Eliceは、従来2年以上かかっていたデータセンター建設期間を3〜4カ月に短縮できる移動型モジュール式データセンター(PMDC)事業を拡大している。キム・ジェウォンElice代表は「AIインフラの競争力はGPUをどれだけ多く確保するかではなく、これをいかにうまく活用するかに懸かっている」とし「いかに優れたGPUを使っても、カスタム型ストレージシステムなどソフトウエアとインフラを整備できなければ速度と性能は低下する」と述べた。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。