SKテレコムはスペイン・バルセロナで開催中の世界最大の移動通信見本市「MWC26」で、コンピューティング資源接続企業パネシア(Panmnesia)と「CXL(Compute eXpress Link・データ接続標準)ベースの次世代人工知能(AI)データセンター(DC)構造(アーキテクチャ)」の共同開発に向けた業務協約(MOU)を締結したと4日明らかにした。AI DCの構造改革に乗り出す。近年AIモデルの高度化によりメモリー需要が急増するなか、GPUを単純に増設する代わりにコンピューティング資源の接続方式を改め、性能とコスト効率を同時に高める構想である。
CXLとはCPU・GPU・メモリー間のデータを有機的に接続し、超高速・低遅延処理を可能にするデータ接続標準で、サーバー単位で束ねられていたコンピューティング資源を柔軟に拡張・活用できるようにする。今回の協力の核心は、CXLベースの技術を活用し、不要な機器増設なしにAI処理効率を高め、AI DCの経済性を引き上げることにある。
パネシアはCXL関連でグローバル水準の技術力を備えた韓国のスタートアップである。△ファブリックリンクスイッチ(多数の装置を中継して接続しデータフローを管理する装置)△リンクコントローラー(装置間の効率的なデータ送信を支援する装置)など、効率的なAI DCを構築するために必要な各種リンク半導体(データ移動を効率化する通信用半導体)を提供している。
従来のAI DCはCPU・GPU・メモリーがサーバー単位で固定された構造である。このため、あるサーバーで特定資源が余っても別のサーバーで活用しにくかった。特にメモリーが不足すると、実際には不要なGPUまで同時に増やさざるを得ない非効率が繰り返されてきた。こうした構造はGPUの活用率を下げ、AI DCの構築・運用コストを押し上げる。
両社はこうした課題を解決するため、CXLベースの技術を適用し、CPU・GPU・メモリーをサーバー単位の固定構造から脱し、柔軟に接続・組み合わせ可能な構造へ転換する。従来サーバー内部に限定されていた資源接続の範囲を、複数サーバーを束ねたラック(Rack)単位まで広げ、必要な資源を選択的に活用する方式である。
あわせて両社は資源間の接続方式も改める。これまでAI DCのGPU協調演算はイーサネットなどの汎用ネットワークを通じてデータの送受信を行ってきたが、この過程でデータのコピーやソフトウエアの介入が発生し、速度が遅延する限界があった。協調演算は複数のGPUが計算結果を相互に共有・統合する過程で、大規模AIの学習・推論に不可欠である。
両社はこのような汎用ネットワークに代えて「スケールアップ(Scaleup)リンク」を適用し、資源をより直接的に接続する。スケールアップリンクはネットワークを介さずに資源を高速で接続する方式で、データ伝送過程を単純化し演算効率を高めることができる。
今回の協力でSKテレコムは、大規模AI DCの構築・運用能力とAIモデルの開発・商用化の経験を踏まえ、実際の商用環境に最適化した構造設計を主導する。パネシアは多様なリンク半導体技術を活用し、従来はサーバー内部にのみ限定されていたスケールアップリンク構造をラック単位以上へ拡張する「純粋スケールアップAIラック(Pure Scaleup AI Rack)」の実装を担う。
両社は実際のAIモデルを稼働させ、GPU・メモリー活用率、遅延時間、スループットなどを総合的に検証した後、年末までに次世代AI DC構造を公開する計画である。その後、実際の大規模AI DC環境での実証を経て、商用化・事業化を進める方針だ。
チョン・ソックンSKT AI CIC長は「AI DCの競争力はGPUの性能競争を越え、メモリーとデータフローまで含むシステム最適化にかかっている」と述べ、「今回の協力は、演算性能が高まってもデータの移動・供給が追いつかない構造的なボトルネックである『メモリウォール(Memory Wall)』を緩和し、AI DCの性能と経済性をともに引き上げる」と語った。
チョン・ミョンスパネシア代表は「次世代AIインフラは個別機器の性能ではなく、多様なリンク半導体が生み出す『構造』が性能を左右する」と述べ、「SKテレコムとともに、グローバル市場が注目する高効率AI DCの標準モデルを提示する」と明らかにした。