11일 오전 찾은 서울 양천구 목동 KT클라우드 AI 이노베이션 센터. 보안문을 지나 40평 남짓한 서버룸으로 들어서자 묵직한 팬 소음이 났다. 눈앞에는 검은색 랙(Rack·대형 AI 서버)이 끝없이 이어졌다. 한켠에서는 엔비디아 최신 그래픽처리장치(GPU) 'B200'을 장착한 AI 서버가 학습 작업을 수행 중이었다. KT클라우드가 AI 데이터센터 인프라와 전시장을 결합해 구축한 'AI 이노베이션 센터' 한복판이다.
이날 문을 연 AI 이노베이션 센터는 AI 서버, 냉각 설비, 네트워크, 전력 인프라까지 실제 AI 데이터센터와 동일한 환경을 구현했다. 회사 측은 단순한 장비 전시가 아니라, 기업이나 기관이 앞으로 구축할 AI 데이터센터의 설계와 운영 방식을 직접 보고 실험해볼 수 있는 테스트베드 장소라고 설명했다.
◇D2C 수냉식·액침 냉각 실증 무대
가장 먼저 눈에 들어오는 것은 B200 GPU를 빼곡히 꽂은 대형 서버 랙이다. 랙 하단부를 내려다보면 굵고 가는 냉각수 호스가 칩 바로 아래까지 촘촘히 연결돼 있었다. GPU 표면이 아니라 칩에 직접 냉각수를 대는 '다이렉트투칩(Direct-to-Chip·D2C)' 수냉식 시스템이 실제 부하를 견디며 돌아가는 장면이다. KT클라우드는 B200·NVL72(B200 GPU 72개를 한 랙에 모은 엔비디아 초고밀도 AI 랙 시스템)급 초고발열 서버 환경을 가정해 냉각수 유량·압력·온도 조건을 장기간 검증해 왔고, 이미 가산 AI 데이터센터에 이 기술을 국내 최초로 상용화했다.
바로 옆에는 투명한 수조 형태의 장비가 시선을 붙잡았다. 서버를 특수 냉각액에 통째로 담가 열을 식히는 '액침 냉각(Immersion Cooling)' 실물 모형이었다. 회사 측은 서울 용산 데이터센터에서 진행한 기술 검증(PoC) 결과, 액침 냉각은 공기 냉각 대비 최대 60%의 전력 절감 효과와 PUE(전력효율지수) 1.08~1.33 수준의 효율을 확인했다고 했다. 허영만 KT클라우드 DC본부장은 "신규 데이터센터뿐 아니라 기존 센터에도 액침 냉각 적용 범위를 단계적으로 넓혀갈 계획"이라고 설명했다.
◇ RoCEv2 네트워크·디지털트윈 운영까지 '풀스택' AI 데이터센터 구현
네트워크와 전력 인프라 역시 '차세대 AI 데이터센터'를 표방하고 있다. KT클라우드는 글로벌 네트워크 기업 아리스타와 손잡고 RoCEv2(IP 네트워크 위에서 GPU·서버 간 데이터를 아주 빠르고 지연 거의 없이 주고받게 해주는 네트워크 기술) 기반 AI 전용 네트워크를 구축했다. GPU 서버 간 대규모 통신을 전제로 설계된 이 네트워크는 기존 엔비디아 인피니밴드 기반 구성보다 비용 효율성과 확장성, 운영 편의성을 높인 것이 특징이다.
전력 인프라는 KT클라우드가 직접 설계한 AI 서버 표준 랙을 적용했다. 글로벌 오픈소스 하드웨어 커뮤니티인 '오픈 컴퓨트 프로젝트(OCP)' 규격을 기반으로 랙당 20kW 이상을 견디는 고밀도 전력 설계를 채택했고, DC 48V 직류 전원 구조로 에너지 손실을 줄였다. 전원 모듈·분배 장치·모니터링 장비 등을 모듈형으로 구성해 고객이 원하는 사양에 맞춰 쉽게 교체·확장할 수 있도록 한 것도 차별점이다.
운영 자동화 기술도 이 센터의 핵심 자산이다. '패스파인더(Path Finder)'는 데이터센터 전력망 전체를 디지털트윈으로 구현해 부하와 안정성을 시뮬레이션하고, 장애나 부하 변화 상황에서 가장 안전한 전력 경로를 자동으로 찾아주는 솔루션이다. 'DIMS 인사이트(Insight)'는 전력·냉각·보안 등 시설 관리 시스템(FMS)에서 쏟아지는 데이터를 AI로 분석해 장애 징후를 조기에 포착하고 예지 정비를 지원한다. 고밀도 AI 데이터센터에서 치명적일 수 있는 다운타임(시스템·서버·네트워크가 오프라인이거나 이용 불가능한 시간)을 사전에 줄이기 위한 장치다.
◇ 자율주행 로봇으로 24시간 안전 점검
센터 내부에서는 자율주행 점검 로봇이 서버 룸 사이를 오가며 랙 전면을 촬영하고, 온도·습도·연기 등을 실시간 감시하는 시연이 진행됐다. 열화상 카메라를 통해 과열 징후를 포착하면 관제 화면에 즉시 경고가 뜨고, 필요하면 원격으로 해당 구역을 확인할 수 있다. KT클라우드는 장기적으로 이러한 자동화 기술을 활용해 현재 60~70명 수준인 데이터센터 운영 인력을 3분의 1 수준으로 줄이고, 24시간 무중단 운영 체계를 고도화한다는 구상이다.
센터 한쪽에는 B200 기반 AI 학습과 MLOps 환경을 체험해 볼 수 있는 데모 구역도 마련됐다. 방문객들은 준비된 데이터셋을 불러와 학습 작업을 실행하고, 학습된 모델을 서비스 환경으로 배포하는 과정을 화면으로 지켜볼 수 있었다.
최지웅 KT클라우드 대표는 "AI 이노베이션 센터는 단순한 전시장이 아니라 미래형 AI 데이터센터 기술을 실증하는 핵심 플랫폼"이라며 "국내 기업들이 AI 인프라 구축에 나설 때 참고할 수 있는 '레퍼런스 데이터센터' 역할을 하면서, 한국형 AI 데이터센터 표준을 함께 만들어가겠다"고 했다.