지난 5월 30일 오후 4시, 광주과학기술원(GIST) 지구·환경공학부 세미나실에서 김동훈 고려대 지구환경과학과 교수가 강연을 했다. GIST 지구·환경공학부가 외부 연구자를 초대해서 강연을 듣는 세미나였다. 이날 김 교수는 외계행성(Exoplanets)을 어떻게 연구할 수 있는지 강의했다.
세미나실에 모인 학생은 15명 남짓이었다. 대부분 한국인 학생이었지만, 일부는 외국에서 유학온 학생들이었다. 이날 세미나는 모두 한국어로 진행됐다. 외국 학생들이 어려운 전문 용어가 섞인 한국어 강연을 제대로 이해할 수 있을지 걱정했지만 기우에 그쳤다. 강연 자료가 나오는 대형 화면의 한 편에 김 교수의 강연에 대한 영어 자막이 실시간으로 달리고 있었다. 미리 한국어 강의 자료를 번역한 게 아니라 김 교수가 강의에서 하는 말을 실시간으로 통역해 자막으로 올렸다.
이날 강의실에서 선보인 기술은 GIST 전기전자컴퓨터공학부 김홍국 교수가 창업한 오니온에이아이(aunionAI)가 만들었다. 한국어 강의를 영어와 중국어 실시간 자막으로 서비스하고, 영어 강의도 한국어와 중국어 자막으로 제공한다. 실시간 통·번역 서비스는 구글이나 삼성전자 같은 빅테크도 아직 완벽하게 상용화하지 못한 기술이다.
GIST 오디오 지능 연구실을 이끄는 김 교수는 음성 인식과 신호처리 분야의 전문가다. 그는 작년 10월 오니온에이아이를 창업하고 인공지능(AI) 기술을 이용해 한국어와 영어, 중국어를 실시간으로 통·번역 할 수 있는 서비스를 만들었다.
김 교수는 “실시간 음성 번역의 어려운 점은 사람의 말이 끝나기 전에 번역이 시작돼야 한다는 것”이라며 “문장을 끝까지 듣지 않고 번역이 진행되기 때문에 번역 성능에 한계가 있을 수밖에 없었다”고 말했다.
기존의 음성 번역 기술은 이런 단점을 극복하기 위해 10초 정도 단위로 음성을 인식하고 번역하는 식으로 작동한다. 문제는 번역하는 10초 단위마다 완결된 문장을 말하지 않는 경우가 많다는 점이다. 뒤에 나오는 문장의 의미가 앞에 나온 문장과 다르면 번역문의 문맥이 어색해질 수 있다. 번역 서비스의 응용 프로그램 인터페이스(API)가 외부에 있으면 이런 단점이 더욱 두드러진다.
오니온에이아이는 ‘컨텍스트 메모리’라는 임시 메모리를 이용해 실시간 번역이 문맥의 흐름을 이어 나갈 수 있도록 했다. AI가 과거 예측한 문맥에 대한 정보를 담은 컨텍스트 메모리가 음성인식 번역이 대화의 흐름을 제대로 파악할 수 있도록 돕는 것이다.
김 교수는 “잘못 입력한 글자가 있으면 백스페이스를 눌러서 고칠 수 있듯, 컨텍스트 메모리가 과거와 현재 예측된 단어를 자연스럽게 이어주는 것”이라고 설명했다. 음성을 인식하는 단위도 2초로 기존 서비스보다 훨씬 빠르고 정교한 예측이 가능해졌다. 2초마다 잘라 임시 메모리가 AI가 예측한 내용과 비교해 매끄럽게 번역할 수 있다.
김 교수는 “외부 번역 API를 사용하는 기존 음성번역 서비스와 달리 자체 소프트웨어를 쓰기 때문에 내부 망에서만 작동할 수도 있고, 사용자의 음성이나 텍스트 정보가 무분별하게 외부로 유실되는 문제도 피할 수 있다”고 말했다. 최근 미국의 AI 기업인 오픈AI가 배우 스칼렛 요한슨의 목소리를 AI에 무단으로 학습시켰다가 논란이 된 일이 있었는데, 오니온에이아이는 이런 AI의 윤리적인 문제도 걱정할 필요 없다고 했다.
오니온에이아이의 실시간 음성인식 번역 기술은 광주·전남 지역 대학에서 큰 관심을 받고 있다. 외국인 학생이 늘어나면서 대학마다 영어 강의가 필수가 되고 있는데, 아직 많은 지방 대학이 영어 강의나 외국 학생을 위한 인프라를 갖추지 못하고 있다. 이런 와중에 한국어 강의를 실시간으로 번역해주는 기술이 등장한 것이다. 오니온에이아이는 이달 말 열리는 광주·전남지역대학교 총장협의회에서 직접 이 기술을 시연할 예정이다.
김 교수는 “GIST는 영어 강의가 많기 때문에 외국 학생들의 불편이 적지만, 다른 지역 대학은 아직 영어 강의가 제대로 이뤄지지 않는 경우가 많다”고 말했다. 그는 “앞으로 더 많은 외국 학생이 한국 대학을 찾아올 텐데, 모든 교수와 학생이 수준급의 영어 실력을 갖추기를 바랄 수는 없는 노릇”이라며 “이 기술을 이용하면 교수와 외국어 학생이 모두 부담 없는 강의실 환경을 만들 수 있다”고 말했다.
아직 개선해야 할 부분도 있다. 전문적인 용어는 AI가 제대로 인식하지 못하거나 엉뚱한 표현으로 번역할 때도 있었다. 김 교수는 “일상용어에서는 오류율이 7% 정도”라며 “전문적인 용어가 많이 등장하는 강의나 세미나의 경우 미리 관련된 내용을 추가로 학습시켜서 오류율을 낮추려고 한다”고 말했다.