엔비디아의 최신 그래픽처리장치(GPU) '블랙웰'이 데이터센터에 공급되는 과정에서 발열로 인한 오작등의 문제를 일으켜 최대 구매자인 미국 빅테크 기업들이 지난해 내내 어려움을 겪었다는 사실이 뒤늦게 알려졌다.
오픈AI와 메타 등 주요 AI 기업들은 지난해 내내 블랙웰 기반 AI 서버를 구축하고 최적화하는 과정에서 기술적 난관 때문에 어려움을 겪었다고 미 정보기술(IT) 전문매체 디인포메이션이 내부 소식통을 인용해 6일(현지시각) 보도했다.
블랙웰 이전 세대의 엔비디아 GPU는 납품 후 몇 주 안에 쉽사리 설치하고 가동할 수 있었지만, 블랙웰의 경우 칩을 대규모로 연결해 하나의 거대한 시스템처럼 작동하도록 하는 과정의 복잡성 때문에 곳곳에서 문제가 발생한 것으로 알려졌다. 반도체에 발열은 '최대의 적'으로 불리며, 시스템 오작동 또는 데이터 손실 등의 주된 원인 중 하나다.
디인포메이션에 따르면 데이터센터에 연결된 칩 가운데 하나만 오작동을 일으켜도 칩 수천 개로 구성된 전체 클러스터가 장애를 일으키거나 중단되는 일도 벌어진 것으로 전해졌다. 기업들은 이와 같은 장애로 중단된 작업을 마지막 저장 시점에서 다시 시작하는 데만 수천∼수백만 달러의 비용을 들여야 했다.
AI 데이터센터를 구축하는 오라클은 이와 같은 블랙웰 칩 구축의 기술적 어려움 등 때문에 약 1억 달러(약 1400억원)의 손실을 감수해야 했다. 텍사스주 데이터센터의 블랙웰 서버에 대해 고객사인 오픈AI가 한동안 승인을 늦췄기 때문이다. 이에 엔비디아는 지난해 불만을 제기한 고객사에 부분 환불을 해주거나, 할인을 제공하는 등 달래기에 나서기도 했다는 후문이다.
이 같은 문제는 지난해 3분기에 관련 문제를 개선한 새 버전 'GB300'을 내놓은 이후에야 수습되기 시작했다. 오픈AI 등 고객사들은 아직 받지 못한 기존 칩을 새 버전으로 교체하고 있다고 소식통은 전했다. 엔비디아는 출시가 예정된 신형 '베라 루빈' 칩에도 이와 같은 개선 사항을 적용했다.