인공지능(AI) 패권 경쟁이 GPT·제미나이·클로드 등 AI 모델 개발 중심에서 이를 안정적으로 구동하는 물리적 인프라로 옮겨가고 있다. 고성능 AI 모델이 있어도 연산 수요를 처리할 그래픽처리장치(GPU)가 부족하거나, 막대한 전력을 감당할 데이터센터가 없으면 현실에서 적용할 수 없기 때문이다. 이에 GPU를 최대 밀도로 돌리는 AI 특화 데이터센터, 이른바 'AI 팩토리' 개발과 구축 경쟁이 미국 빅테크와 네오클라우드 기업을 중심으로 치열해지고 있다.
28일 업계에 따르면 최근 AI 인프라 시장에서는 AI 모델의 학습·추론에 필요한 GPU를 중심으로 설계된 AI 데이터센터가 각광받고 있다.
일론 머스크 테슬라 최고경영자(CEO)가 이끄는 AI 기업 xAI가 미국 테네시주 멤피스에 운영 중인 세계 최대 규모 AI 데이터센터 '콜로서스'가 대표적인 사례다. 콜로서스는 AI 학습에 최적화된 형태로 데이터센터 구조를 재설계했다는 점이 특징이다. 구글·아마존웹서비스(AWS)·마이크로소프트(MS) 등 기존 하이퍼스케일러(대규모 클라우드 기업)들이 운영하는 데이터센터는 다양한 업무를 처리하기 위한 범용 인프라라면, 콜로서스는 AI 전용 'AI 팩토리'에 가깝다. 이를 위해 xAI는 콜로서스의 GPU 집적도, 냉각 설계, 전력 공급 구조, 네트워크 구성 등을 범용 데이터센터와 다르게 설계했다.
일반적으로 데이터센터는 기획부터 완공까지 평균 2~3년이 걸리지만, xAI는 122일 만에 AI 칩(엔비디아 H100 GPU) 10만개를 탑재한 초대형 클러스터(서버 집합)를 구축했고, 이후 3개월 만에 GPU 규모를 20만개 수준으로 2배 확장했다고 밝혔다. xAI는 새 부지에 데이터센터를 짓는 대신 멤피스의 옛 일렉트로룩스 공장을 개조했고, 모듈형 설계를 적용해 데이터센터 구축 속도를 획기적으로 끌어올렸다. 모듈형 설계는 표준화된 GPU 서버·랙·냉각 시설·네트워크 장비 등 핵심 설비를 담은 장비를 레고 블록처럼 배치해 데이터센터를 빠르게 확장할 수 있도록 지원한다.
범용 데이터센터는 공기를 이용해 서버 열을 식히는 공랭식 냉각을 주로 사용해왔지만, 콜로서스는 냉각수를 순환시켜 GPU의 발열을 줄이는 수랭식 냉각(액체냉각)을 활용한다. 최신 GPU는 전력 소모와 발열이 심해 냉각 효율이 더 높은 액체냉각이 공랭식 냉각의 대안으로 부상하고 있다. 콜로서스의 액체냉각 랙(서버와 장비를 층층히 쌓아 보관하는 선반) 하나에는 GPU 서버 8대가 들어가며, 랙 하단에 배치된 냉각수 분배 장치(CDU)를 통해 AI 칩의 열을 직접 식히는 방식이다. 이를 통해 랙당 100kW 이상의 고밀도 전력 공급이 가능하도록 했다.
xAI는 콜로서스에 이동식 가스터빈 수십대와 테슬라의 대형 배터리 '메가팩'을 설치해 전력 확보 문제도 해결했다. 현재 미국에서는 데이터센터 부지를 확보하더라도 전력망 연결 승인까지 3~5년 이상 대기해야 하기 때문에 부지 내에 직접 발전 설비를 갖춰 유연성을 확보한 것이다.
AI 업계에서는 콜로서스의 특징인 고밀도 GPU 환경과 높은 냉각·전력 효율, 모듈형 설계 등이 기존 하이퍼스케일러보다는 네오클라우드에 가깝다고 평가한다. 코어위브, 크루소, 네비우스 등 주요 네오클라우드(AI 특화 인프라 기업)들도 GPU를 최대 밀도로 안정적으로 운영하는 환경과 효율적인 액체냉각, 빠른 구축 속도 등을 자사 AI 인프라의 강점으로 내세운다.
국내 기업들도 이런 흐름에 발맞춰 AI 특화 데이터센터 사업을 키우고 있다. NHN클라우드는 AI 개발과 운영에 필요한 데이터센터·GPU·AI 소프트웨어를 한꺼번에 제공하는 서비스인 'NHN 팩토리X'를 최근 출시했다. 회사는 '팩토리X'가 기업이 확보한 GPU를 낭비 없이 최대한으로 활용할 수 있도록 지원한다고 강조했다. 김동훈 NHN클라우드 대표는 "GPU를 확보한 기업 중 피크타임 활용률이 85% 이상인 기업이 7%에 불과하다"며 "앞으로 AI 인프라를 얼마나 단단하고 효율적으로 운영하는지가 AI 시장에서의 성패를 좌우할 것"이라고 말했다.
삼성SDS는 2031년까지 AI 데이터센터를 포함한 AI 인프라와 관련 인수·합병(M&A)에 10조원을 투입하기로 했다. 그 일환으로 현재 경북 구미에 60MW(메가와트) 규모 AI 데이터센터를 구축 중이다. SK텔레콤도 AWS 등과 손잡고 울산 지역에 대규모 AI 데이터센터를 건설 중이다.
AI 인프라 기업 엘리스그룹은 기존에 2년 이상 걸리던 데이터센터 건설 기간을 3~4개월로 단축할 수 있는 이동형 모듈식 데이터센터(PMDC) 사업을 확대하고 있다. 김재원 엘리스그룹 대표는 "AI 인프라 경쟁력은 GPU를 얼마나 많이 확보하는지가 아니라, 이를 얼마나 잘 활용하느냐에 달려있다"며 "아무리 좋은 GPU를 써도 맞춤형 스토리지 시스템 등 소프트웨어와 인프라를 갖추지 못하면 속도와 성능이 저하된다"고 말했다.