エヌビディアの最新グラフィックス処理装置(GPU)「ブラックウェル」がデータセンターに供給される過程で発熱に起因する不具合を引き起こし、最大の購入者である米国ビッグテック企業が昨年を通じて苦境に直面していた事実が遅れて明らかになった。
OpenAIやMeta(メタ)など主要AI企業は、昨年を通じてブラックウェル搭載のAIサーバーを構築し最適化する過程で技術的難題により困難を経験したと、米情報技術(IT)専門メディアのザ・インフォメーションが内部関係者の話として6日(現地時間)に報じた。
ブラックウェル以前の世代のエヌビディアGPUは納入後数週間で容易に設置・稼働できたが、ブラックウェルはチップを大規模に相互接続して一つの巨大なシステムのように動作させる過程が複雑で、各所で問題が発生したとされる。半導体において発熱は「最大の敵」と呼ばれ、システムの不具合やデータ損失などの主因の一つである。
ザ・インフォメーションによれば、データセンターに接続されたチップのうち一つでも不具合が起これば、数千個のチップで構成される全体クラスターが障害を起こしたり停止したりする事態も発生したという。企業はこうした障害で中断された作業を最後の保存時点から再開するだけでも数千~数百万ドルの費用を投じなければならなかった。
AIデータセンターを構築するオラクルは、このようなブラックウェルチップ構築の技術的困難などにより約1億ドル(約1400億ウォン)の損失を甘受せざるを得なかった。テキサス州のデータセンターにおけるブラックウェルサーバーについて、顧客のOpenAIがしばらく承認を遅らせたためである。これを受け、エヌビディアは昨年、不満を示した顧客企業に部分返金を行ったり割引を提供したりするなど、なだめに動いたとの後日談がある。
こうした問題は、昨年3四半期に関連問題を改善した新バージョン「GB300」を投入してからようやく収拾に向かい始めた。OpenAIなど顧客企業は、まだ受け取っていない既存チップを新バージョンに交換していると関係者は伝えた。エヌビディアは発売予定の新型「ベラ・ルービン」チップにも同様の改善事項を適用した。