전력 소모를 최소화하면서도 초고속으로 거대언어모델(LLM)을 처리할 수 있는 인공지능(AI) 반도체 핵심 기술인 '상보형 트랜스포머'(Complementary-Transformer)를 국내 연구진이 세계 최초로 개발했다. 왼쪽은 제1 저자로 참여한 김상엽 박사./연합뉴스

한국과학기술원(KAIST) 연구진이 전력 소모를 최소화하면서 초고속으로 거대언어모델(LLM)을 처리할 수 있는 인공지능 반도체 핵심 기술을 개발했다.

KAIST PIM반도체 연구센터와 인공지능반도체 대학원 유회준 교수 연구팀은 인공지능 반도체 ‘상보형-트랜스포머’를 삼성전자 28나노 공정을 이용해 세계 최초로 개발했다고 6일 발표했다.

상보형 트랜스포머는 인간 뇌의 구조와 기능을 모방한 뉴로모픽 컴퓨팅 시스템이다. ‘스파이킹 뉴럴 네트워크(SNN·뇌의 뉴런이 스파이크라는 시간에 따른 신호를 사용해 정보를 처리하는 방식)’와 ‘심층 인공신경망(DNN·시각적 데이터 처리에 사용되는 딥러닝 모델)’을 사용해 트랜스포머 기능을 구현한다. 트랜스포머는 문장의 단어와 같은 데이터 내부 관계를 추적해 맥락과 의미를 학습하는 신경망 기술이다. 챗GPT의 원천 기술이다.

GPT 같은 거대언어모델을 구현하려면 다량의 GPU와 250와트의 전력이 필요했다. 하지만 KAIST 연구진은 4.5㎜ x 4.5㎜의 작은 AI 반도체 칩 상에서 초저전력으로 GPT를 구현하는 데 성공했다. 연구진은 지난 2월 19일부터 23일까지 미국 샌프란시스코에서 열린 국제고체회로설계학회(ISSCC)에서 이 기술을 시연했다.

KAIST 연구진은 지난해 상보형 심층신경망 기술을 선보인 바 있다. 사람의 뇌가 생각할 것이 많을 때 에너지 소모가 많고, 생각할 것이 적을 때 에너지 소모가 적은 것처럼 뇌를 모방해 입력값이 클 때는 전력을 많이 소모하고 입력값이 적을 때는 전력을 적게 소모하는 방식을 구현했다. 이번 연구는 상보형 심층신경망 기술을 거대언어모델에 적용해 초저전력·고성능의 온디바이스 AI가 가능하다는 것을 실제로 입증한 것이다.

연구진의 기술을 적용하면 거대언어모델의 파라미터를 효과적으로 줄일 수 있다. GPT-2 거대모델의 경우 7억800만개의 파라미터를 사용하는 걸 1억9100만개로 줄였다. 번역을 위해 사용되는 ‘T5′ 모델에서는 4억200만개의 파라미터를 7600만개로 줄였다.

상보형 트랜스포머는 엔비디아의 GPU(A 100) 대비 전력 소모는 625배 줄이고, 언어 생성에는 0.4초의 고속 동작이 가능했다. 과학기술정보통신부는 “파라미터 수 감소에 더해 초저전력 처리가 가능한 뉴로모픽 컴퓨팅을 거대언어 모델 처리에 적용해 에너지 효율을 극대화했다는 점에서 획기적인 연구”라고 설명했다.