“구글 번역에 인공신경망 기술을 적용한 후 한국 사용자가 최근 6개월 사이 75% 이상 증가했습니다.”

마이크 슈스터 구글 연구 과학자(research scientist)는 16일(현지시각) 미국 캘리포니아주 마운틴뷰 구글 본사에서 열린 아시아 지역 미디어 간담회에서 이렇게 말했다.

마이크 슈스터 구글 리서치 사이언티스트가 구글 번역 품질에 관해 설명 중이다.

그는 “현재 한국어 번역 품질은 중국어(6점 만점에 4.7점가량)보다 확실히 높아진 것으로 파악하고 있다”며 “정확한 조사를 하지 않았지만, 구글 인공신경망을 적용한 이후 대략 0.6~1.5점 정도 늘어난 것으로 추산하고 있다”고 덧붙였다.

구글은 한 언어를 다른 언어를 번역하는 언어 모델마다 2~3주씩 집중 훈련을 시킨다. 한영 번역과 영한 번역은 각각 하나의 모델로 총 2개의 모델이다. 구글은 현재 103개의 언어를 다루기 때문에 글이 훈련시키는 언어 모델의 수는 총 103개의 제곱, 1만609개에 달한다.

모델별로 사용되는 데이터의 숫자는 1억개 이상이다. 모델별로 2~3주간 총 1억개가 넘는 데이터를 가져와서 1만609개의 모델을 훈련시키는 셈이다.

그는 “이 때의 데이터는 인터넷상에 공개된 자료를 가져다 쓴다"면서 “최근 구글의 한영 번역, 영한 번역 이용자 수가 늘면서 한국어 구글 번역 수준도 높아진 것"이라고 말했다.

구글은 데이터 없이도 번역할 수 있는 기술인 '제로샷(Zero-shot) 번역'으로 품질을 높인다. 가령,
구글번역이 영어와 한국어, 영어와 일본어 언어쌍을 각각 번역할 수 있는 지식을 갖추고 있을 경우, 한국어와 일본어 언어쌍에 대해서도 별도 머신러닝을 통한 학습과정을 거치지 않아도 번역이 가능해진다는 설명이다.

여러개 언어를 트레이닝하면서 정확도가 높아지는 것은 물론, 직접 번역 학습을 하지 않은 언어도 중간 언어를 매개로 번역할 수 있게 된 것이다. 구글에 따르면, 같은 의미를 지니는 여러 국가의 언어는 알고리즘 상에서 비슷한 위치에 자리를 잡게 된다. 구글은 제로샷 번역을 적용한 후 한 문장 번역 속도가 10초에서 0.2초 수준으로 줄었다고 덧붙였다.

마이크 슈스터는 구글 번역이 실제 동시통역사처럼 번역하게 되는 데까지는 시간이 걸릴 것으로 봤다.

그는 “당장 숫자와 날짜 번역상의 오류, 짧고 희귀한 문장 번역 오류, 이름과 브랜드 인식 오류를 개선해야 한다”면서 “기계는 여전히 사람이 말하는 것의 뉘앙스나 농담, 비꼬는 말 등을 이해하지는 못하고 예술적인 의미를 완전히 파악하진 못하고 있다”고 덧붙였다.