KT클라우드, 연말까지 대덕에 초거대 AI 학습용 GPU 인프라 구축

KT클라우드, 12월까지 초거대 AI 학습용 GPU 인프라 구축 /KT클라우드 제공

KT클라우드가 오는 12월까지 KT 대덕2연구센터에 초거대 인공지능(AI) 학습용 그래픽처리장치(GPU) 인프라를 구축한다고 25일 밝혔다.

KT클라우드는 이번 사업에서 하이퍼스케일 AI 컴퓨팅(HAC) 인프라를 구축해 최적의 성능, 운영 효율성 등을 검증하고, 본격적인 초거대 AI 사업 시장 공략에 나선다는 전략이다.

초거대 AI는 대용량의 연산이 가능한 GPU 인프라를 바탕으로 대규모 데이터를 학습해 사람처럼 스스로 사고할 수 있도록 설계된 AI다. KT는 초거대 AI 사업을 본격적으로 추진하며 적기 학습을 위한 GPU 컴퓨팅 인프라를 확보하고자 KT클라우드의 HAC와 엔비디아의 GPU 어플라이언스를 병행 도입하기로 결정했다.

KT클라우드는 이번 사업 참여로 HAC의 초거대 AI 주요 사업 레퍼런스를 확보하게 된다. 초거대 AI 학습 성능개선과 재학습결과 등을 검토·보완해 글로벌 탑티어 수준까지 기술력을 끌어올린다는 계획이다. 국내 기업인 '모레(Moreh)'와 협력해 최적화된 AI 프레임워크를 개발하는 한편, '리벨리온(Rebellions)'과 함께 국산 AI 클라우드 반도체 칩 개발도 추진 중이다.

KT클라우드의 HAC는 지난해 12월 출시한 세계 최초 종량제 GPU 서비스다. AI 모델 대형화에 필요한 비즈니스 민첩성, 비용 효율성, 개발 유연성·연속성, 프로그래밍 호환성 등 강점을 갖추고 있다. HAC의 GPU로는 비용 효율이 높기로 정평이 난 AMD사 제품을 사용했다.

HAC는 여러 대의 GPU를 논리적으로 결합해 하나의 GPU처럼 사용하며, 수백·수천개의 GPU 클러스터링을 지원한다.. 대규모 연산이 필요할 때 다중·동적 할당 기술을 통해 원하는 만큼만 GPU 자원을 할당 받고, 연산 후 즉시 반납할 수 있어 탄력적으로 서비스를 이용할 수 있다는 것이 장점이다.

클라우드 기반으로 GPU를 사용한 기간, 할당된 자원만큼만 비용을 책정하기 때문에 고가의 장비를 구축하는 것에 비해 부담을 획기적으로 줄일 수 있다. 또, 코드 재활용 등 기존 개발 소스를 활용할 수 있는 모델 프로그래밍 호환성은 물론, 개발 시 필요한 자원 규모를 탄력적으로 변경하고 과거 학습결과에 이어 진행할 수 있는 유연성과 연속성을 보장한다.

/KT클라우드 제공

KT클라우드가 초거대 AI 언어모델 학습 테스트를 진행한 결과, HAC는 동등한 조건의 기존 구축형 서비스 대비 30~50%의 비용 절감 효과를 낼 수 있는 것으로 나타났다. KT클라우드는 서버 팜을 지속적으로 증설해 나간다는 계획으로, 향후 최대 10분의 1 수준의 효율적 비용으로 동급 연산 자원을 제공할 수 있을 것으로 기대하고 있다.

윤동식 KT클라우드 대표는 "HAC는 초거대 AI 연구 및 서비스 개발에 필수적인 대규모 인프라를 제공하는 혁신적인 기술이자 서비스"라며 "초거대 AI 산업의 문턱을 낮춰 대규모 GPU 인프라가 필요한 AI 전문기업·스타트업 등과 성공 사례를 만들어가고 있다. 뿐만 아니라 국내·외 AI 선도기업들과 초거대 AI 산업 성장을 이끌어 갈 것"이라고 전했다.

한편, IT 시장 조사업체인 IDC에 따르면, 올해 세계 AI 솔루션 시장 규모는 4500억달러(약 648조원)에 이를 전망이다. 이는 지난해 3833억달러(약 552조원) 대비 17% 이상 성장한 규모로, 향후 5년 이상 성장세를 유지한다는 분석이다. 그 중 AI 하드웨어 시장은 지난해 수익이 18억8000만달러(약 2조7000억원)로 전체 시장 대비 규모는 작지만 성장세는 가장 가파르다. AI 서버와 스토리지의 수익 증가율은 각각 39.1%, 32.9%로, AI 모델과 데이터 세트의 컴퓨팅과 저장 수요에 따라 기업들이 전용 AI 시스템을 구축하고 있어 이런 성장세가 나타난다고 IDC는 설명했다.