超大規模人工知能(AI)を学習させる際、繰り返し直面する難題がある。モデルが大きくなるほどグラフィックス処理装置(GPU)が処理すべきデータが爆発的に増え、GPUメモリーがすぐに満杯となり学習が遅くなったり、あるいは停止する「メモリー不足」問題が頻発する。韓国の研究陣がこの問題を構造的に解決し得る新技術を開発したと明らかにした。
韓国電子通信研究院(ETRI)は8日、超大規模AI学習環境で最大の障害とされるGPUメモリーの限界とデータボトルネックを低減できるメモリー技術「オムニエクステンド(OmniExtend)」を開発したと発表した。
超大規模AIモデルを学習する際には、モデルパラメーターだけでなく学習過程で生じる中間計算値や最適化に必要な情報まで、すべてがメモリーに載る。このときGPUメモリーが不足するとデータを継続的に移動させねばならず、その過程で遅延が発生して学習速度が低下する。結局、より大きなモデルを学習するには高価な装置を追加で接続するか、複数台のGPUに作業を分割して通信負荷を甘受する場合が多かった。
ETRIが開発したオムニエクステンドは、こうした制約を和らげるため標準ネットワーク技術であるイーサネット(Ethernet)を活用する。要点は、複数のサーバーとアクセラレーター(GPU)ごとに別々に存在していたメモリーをネットワークで接続し、あたかも一つの大容量メモリーのように共有させる構造にある。
平たく言えば、各装置に分散していたメモリーをひとまとめにし、大きなメモリープール(pool)のように使う方式である。この構造が実装されれば、AI学習に必要なメモリーを状況に応じてより柔軟に確保でき、特定装置のメモリー上限に学習規模が縛られる問題も緩和できる。
ETRIは、オムニエクステンドがデータ移動の遅延を最小化しAI学習速度を引き上げる助けとなり得ると説明した。また、従来のように装置を丸ごと交換せずともネットワークベースでメモリーを拡張する方向であるため、データセンターの構築・運用コストの削減効果も見込めると付け加えた。
とりわけイーサネットスイッチを用いて物理的に離れた多数の装置を一つのメモリープールとして束ねられる点で、超大規模AI環境に求められる拡張性(スケールアウト)の面でも競争力があるとの評価が出ている。
ETRIは当該技術を2024年5月にフランス・パリで開かれた「RISC-Vサミット・ヨーロッパ2025」と米国サンタクララで開催された「RISC-Vサミット・北米2025」で相次いで公開し、高い関心を集めたと伝えた。
キム・ガンホETRI超性能コンピューティング研究本部長は「今後、新たな課題企画を通じてニューラルネットワークプロセッサ(NPU)とアクセラレーター中心のメモリー・インターコネクト技術研究を本格的に拡大する計画だ」と述べ、「グローバルAI・半導体企業の次世代システムに本技術が適用されるよう、技術の高度化と国際協力を継続する」と語った。