오픈AI ‘챗GPT’, 메타 ‘라마’ 등 글로벌 빅테크 기업들이 생성형 인공지능(AI)를 선보이면서 AI 시장이 급성장하고 있는 가운데, 이를 원활하게 구동할 수 있는 AI 반도체 수요도 폭증하고 있다. 하지만 아직까지 시장에 상용화된 AI 반도체는 엔비디아와 AMD 등이 설계한 그래픽처리장치(GPU) 기반 AI 가속기뿐이다. 엔비디아 GPU의 경우 가격이 수천만원대인데다 전력소모가 커 일부 대기업만이 활용할 수 있다는 단점이 있다.
가격이 저렴하고 전력 효율이 뛰어난 AI 반도체에 대한 갈증이 커지고 있는 와중에 지난해 1월 국내 스타트업 하이퍼엑셀은 흔히 AI 반도체로 알려진 GPU와 신경망처리장치(NPU)가 아닌 ‘언어처리장치(LPU)’를 선보였다. ‘챗GPT’ ‘라마’ 등 생성형 AI의 기반이 되는 대규모언어모델(LLM)에 최적화된 AI 반도체다.
김주영(42) 하이퍼엑셀 대표는 지난 7일 서울 강남구 하이퍼엑셀 본사에서 조선비즈와 만나 “GPU 가격이 워낙 비싸 생성형 AI가 데이터센터를 갖출 수 있는 빅테크의 전유물처럼 작용하고 있다”며 “생성형 AI를 도입하는 일반 기업들도 저렴한 가격에 활용할 수 있도록 이에 특화된 LPU를 개발하게 됐다. 개별 반도체의 회로 설계부터 탑재되는 메모리 종류까지 LLM 가동에 초점을 두고 개발했기 때문에 엔비디아의 경쟁 제품과 비교할 때 가성비와 전력 대비 성능 비율(전성비)이 2배 이상 우수하다”고 했다.
지난 2010년 카이스트에서 전기공학 박사를 받은 김 대표는 2012년부터 2019년까지 마이크로소프트(MS)에서 반도체 설계 연구원으로 근무했다. 이후 카이스트 전기전자공학부 교수로 둥지를 옮겼다. LPU 개발에 매진한 그는 카이스트 석·박사 연구생들과 함께 LPU 스타트업 하이퍼엑셀을 창업했는데, 삼성전자, 뉴블라 출신 연구인력들도 합류했다.
김 대표는 “MS에 재직하며 생성형 AI 시장의 성장을 예측했고, 이에 최적화된 AI 반도체가 필요할 것으로 내다봤다”며 “2021년 카이스트에서 본격적으로 연구를 개시했고, 국제 반도체 설계 자동화 학회(DAC)에 자체 개발한 LPU를 발표해 ‘공학 부문 최고 발표상’을 받았다”고 말했다. DAC는 국제 반도체 설계 분야 대표 학회로, 인텔과 엔비디아, AMD, MS 등 글로벌 반도체 설계 기업과 대학이 참여한다.
AI 모델에 널리 쓰이는 GPU와 달리 하이퍼엑셀의 LPU는 LLM 연산 처리 과정에서 메모리 대역폭의 효율을 극대화했다. 메모리 대역폭의 효율이 우수하다는 것은 데이터 전송 속도를 높임과 동시에 전력 효율까지 제고할 수 있다는 것을 의미한다. 하이퍼엑셀에 따르면, 메모리 대역폭의 50~60% 수준을 활용하는 GPU와 비교할 때, LPU는 90% 가까이 활용할 수 있다. 가격도 절반 이상 저렴하다. 김 대표는 “개발 초기 단계부터 LLM 연산 처리의 핵심인 메모리 대역폭 효율에 집중했다”며 “하이퍼엑셀이 개발 중인 LPU 8개를 탑재한 하이퍼엑셀의 AI 가속기 제품 오리온은 챗GPT의 LLM 연산에 사용되는 고성능 GPU 대비 가격 효율이 2.4배가량 높다”고 했다.
올해 초 4㎚(나노미터·10억분의 1m) 공정으로 LPU를 개발하는 데 성공한 하이퍼엑셀은 지난달 메타의 생성형 AI인 ‘라마3′를 자사가 개발한 AI 서버로 구동시키는 데 성공했다. 이는 국내 AI 반도체 기업 중 유일한 성과다. 4000억개 이상의 파라미터를 보유한 생성형 AI 모델을 가동할 수 있는 반도체 성능과 소프트웨어 스택을 갖췄다는 것을 의미한다. 소프트웨어 스택은 생성형 AI 모델 구동에 필요한 라이브러리와 프로그래밍 언어, 기술 세트 등을 뜻한다.
김 대표는 “라마3를 구동하기 위한 소프트웨어 스택을 갖춘 기업은 국내에서 하이퍼엑셀이 유일하다”며 “창업 초기 생성형 AI 모델을 구동하기 위한 소프트웨어 시스템을 구축해 단시간에 라마3를 가동할 수 있었다”고 설명했다. 다음은 김 대표와의 일문일답.
—LPU 기업을 창업하게 된 계기는.
“카이스트 교수로 재직하면서 생성형 AI가 전 산업에 걸쳐 보편화될 것으로 예상했다. 빅테크를 중심으로 생성형 AI 시장이 형성되고 있었지만, 금융과 의료, 교육 등 다양한 산업에 생성형 AI의 적용이 확대될 것으로 봤다. 소비자들이 이용하는 전자기기에도 확산돼, 자연스레 LLM에 특화된 AI 반도체가 필요할 것으로 예상했다.
2021년부터 LPU 개발에 매진해 이를 최초로 학회에 발표했을 때 AMD 측에서 협업을 요청해 왔다. 고객사들 중 LLM을 구동시킬 수 있는 AI 반도체를 원하는 곳이 많은데, 이에 최적화된 솔루션을 보유한 기업이 하이퍼엑셀뿐이라는 이유에서다. AMD의 제안에 자신감을 얻게 됐고 전격 창업에 나섰다. 현재 AMD가 제공하는 서버용 하드웨어 플랫폼에 하이퍼엑셀의 LPU 설계자산(IP)을 공급하는 형태로 협업을 진행 중이다.”
—LPU에 대한 시장 수요는 어떤지.
“클라우드와 연계해 생성형 AI를 가동하는 것을 부담스러워하는 기업들을 중심으로 수요가 발생하고 있다. 클라우드를 이용하면 데이터가 곳곳으로 퍼지기 때문에 보안 문제가 생길 수 있다. 클라우드를 사용하면 시간당 30달러(약 5만원) 정도의 사용료를 지불해야 해 비용 부담도 만만치 않다. 이를 거치지 않고 자체적으로 원하는 규모의 생성형 AI를 활용하려는 산업계를 먼저 공략하고 있다. 금융과 의료, 교육, 군부대 등에서 LPU를 활용하고 있다. 온디바이스(내장형) AI 관련 IP 수요도 높다. 스마트폰뿐만 아니라 자동차, 가전 등에서도 생성형 AI를 탑재하는 분위기다.”
—하이퍼엑셀이 보유한 LPU의 강점은 무엇인지.
“LPU를 개발하며 주안점을 두었던 것은 메모리 대역폭의 효율이다. LLM을 구동하기 위해 가장 중요한 것이 메모리를 빠르게 불러오는 것이고, 메모리 대역폭이 연산 과정에서 어느 정도 수준의 효율을 낼 수 있는지가 관건으로 작용한다. GPU에 고대역폭메모리(HBM)를 다량 탑재하는 이유이기도 하다. 하이퍼엑셀의 LPU는 테스트 단계에서 최대 90% 가까운 효율을 기록했다. 엔비디아의 GPU는 50~60% 수준이다. 메모리 대역폭 효율뿐만 아니라 메모리를 불러올 때 발생하는 지연 문제를 최소화한 설계로 연산 성능과 전력 효율, 가격 경쟁력에서 앞설 수 있었다.”
—양산 일정과 향후 목표는.
“AI 가속기 오리온의 차세대 모델이 테스트 칩을 생산하기 위한 파운드리(반도체 위탁생산) 멀티 프로젝트 웨이퍼(MPW)에 돌입했다. 내년 말 양산에 돌입해 고객사에 납품할 계획이다. AMD와의 협업과 IP 사업도 병행해 5년 내 매출 1000억원을 달성하고 흑자 전환하겠다는 목표를 수립한 상황이다.”