네이버가 오는 8월 24일 외부에 공개 예정인 ‘하이퍼클로바X’의 성능이 오픈AI가 지난해 챗GPT에 처음 적용한 GPT-3.5 레벨에 도달한 것으로 전해졌다. 현재 GPT-3.5 수준의 ‘초거대 언어모델(LLM)’을 구현할 수 있는 글로벌 기업이 손에 꼽히는 만큼 네이버 ‘생성형 인공지능(AI)’에 대한 기대감이 커지고 있다.
29일 업계에 따르면 네이버가 하이퍼클로바X를 출시하기 전 임직원을 대상으로 내부 베타테스트를 진행 중인 가운데, 하이퍼클로바X의 한국어 능력이 GPT-3.5의 영어수준과 동급이거나 그 이상 수준인 것으로 알려졌다.
하이퍼클로바X는 오픈AI의 GPT에 대응하는 네이버의 초대규모 언어모델(LLM)로, 머신러닝을 통해 방대한 데이터를 미리 학습해 추론하고 이를 문장으로 표현할 수 있는 생성형 AI의 원천 기술이다. 사용자가 채팅하듯 질문을 입력하면 학습한 데이터를 기반으로 사람처럼 문장을 만들어 답을 해준다.
네이버 내부에선 하이퍼클로바X의 외국어는 GPT-3.5 수준보다 떨어지지만, 한국어는 GPT-3.5 영어 이상 수준인 만큼 성공적이라는 평가다. 특히 사용자가 질문을 하면 답변을 하는 속도가 ‘챗GPT’보다 훨씬 빠른 것으로 전해졌다.
오픈AI가 지난 2018년 처음 공개한 GPT-1의 파라미터(매개변수)는 1억1000만개다. GPT-2의 매개변수가 15억개였던 것에 비해 GPT-3의 매개변수는 1750억개다. GPT 3.5는 GPT-3를 미세조정한 모델로, 현재 챗GPT에 적용됐다.
매개변수는 인간 뇌의 ‘시냅스’(신경세포의 접합부)에 해당하는 역할을 하는데 숫자가 클수록 성능이 높아진다. 오픈AI가 지난 3월 챗GPT 유료 모델에 적용한 GPT-4의 매개변수는 1조개 수준이다. 이는 미국 변호사 시험에서 하위 10%의 성적을 낸 GPT-3.5와 달리 상위 10% 점수를 받을 수 있을 정도의 언어 능력이다.
하지만 한글 데이터 학습 등의 한계로 GPT의 한국어 수준은 영어보다 많이 미숙하다는 평가가 나온다. 반면 하이퍼클로바X는 GPT-3.5보다 한국어 데이터를 6500배 더 많이 학습했다는 게 네이버의 설명이다.
하이퍼클로바X 개발을 이끄는 김유원 네이버클라우드 대표는 최근 하이퍼클로바X에 대한 조선비즈 기자의 질문에 “한국에서 만드는 생성형 AI가 이 정도 수준으로 올라왔구나라고 느껴질 것”이라며 “구글의 바드와 오픈AI의 챗GPT와 비교해 ‘성능이 괜찮다’라는 말이 나올 정도”라고 했다.
전문가들은 국산 생성형 AI의 기술력이 GPT-3.5 수준만 되어도 의미가 있다고 평가한다. 현재 GPT-3.5 레벨과 비슷하거나 그 이상 수준으로 생성형 AI를 구현한 곳은 구글 ‘바드’(매개변수 5300억개), 메타 ‘라마’(매개변수 650억개), 바이두 ‘어니봇’(매개변수 2600억개) 정도 밖에 없기 때문이다.
강재우 고려대 컴퓨터학과 교수는 “GPT-3.5의 한국어 답변을 보면 영어 답변과 비교해 부실하고 어색하다”면서 “하이퍼클로바X가 한국어 답변을 GPT-3.5의 영어 수준으로 구현할 수 있다면 의미 있는 기술 개발일 수밖에 없다”라고 말했다.
카이스트 AI 연구소장을 지낸 이수영 명예교수는 “GPT-3.5 수준의 AI 구현을 위해선 방대한 데이터 수집과 정밀한 알고리즘 구현이 필요한데 기술력은 물론 돈이 많이 들어 전 세계적으로 그렇게 많은 기업이 하지는 못한다”며 “현재 GPT-3.5 수준에 도달했다면 GPT-4 수준도 빠르게 따라잡을 수 있을 것”이라고 말했다.
한편 네이버는 하이퍼클로바X 기술을 활용해 다음 달 중으로 AI 검색엔진 큐:를 출시하고, 8월 24일 챗GPT와 같은 생성형 AI 서비스를 공개한다.