"감기가 아직 시원하게 낫지 않아 신(臣)들의 우려가 그치지 않습니다. 두통과 기침, 코 막힘 등의 증세는 전에 비해 어떠하십니까?(영조 2년 4월 28일)"

지난달 12일 오후 서울 종로구 한국고전번역원 연구실. 승정원일기(국보 303호)에 빽빽이 적힌 고전 한문을 인공지능(AI) 번역기로 우리말로 번역하는 테스트 작업이 한창이었다. 낯선 한자어 투성이인 일기 중에서 한 부분을 골라 번역기 창에 넣어봤다. 0.1초도 안 돼 우리말로 술술 내용을 풀어냈다. 영조 임금이 즉위 2년차에 몸살을 심하게 앓은 모양이다. 백한기 한국고전번역원 고전정보센터장은 "1994년부터 승정원일기 번역이 시작됐지만 양이 워낙 방대해 전문 번역사들은 아직 20%밖에 번역하지 못했다"며 "2062년으로 예상한 완역 시점을 AI 번역과 병행하면 30년 이상 앞당길 것으로 기대한다"고 말했다. AI가 초벌 번역을, 전문 번역가가 감수를 맡는 식의 분업이 되면 작업 소요시간이 확 줄기 때문이다.

세계 최대 분량의 사료(史料) 승정원일기… AI가 번역한다

오늘날의 대통령 비서실에 해당하는 승정원에서 국왕의 일거수일투족을 생생하게 기록한 승정원일기는 단일 사료로는 세계 최대 분량을 자랑한다. 임진왜란과 이괄의 난 등으로 태조~광해군 때 자료가 소실됐고, 인조~순종 288년치의 일기만 남았는데도 3245권, 총 2억4300만자에 달한다. 팔만대장경 목판본(5000만자), 조선왕조실록(4965만자) 등 다른 사료보다 5~6배 많다. 국왕이 신하들과 주고받은 이야기와 그날 먹은 음식, 건강 상태 등 온갖 내용이 일기로 남았다. 이런 사료적 가치를 인정받아 2001년엔 유네스코 세계 기록 유산으로 등재됐다.

승정원일기를 AI로 번역하는 일은 작년 6월 시작했다. 고전번역원은 업무 효율을 높이기 위해 고전 문헌 번역에 AI를 도입하기로 하고 한국정보화진흥원에서 1차 사업비로 19억4000만원을 받았다. 번역 알고리즘 제작은 AI번역 전문업체인 시스트란이 맡았다. 2016년 세계 최초로 딥러닝(심층학습) 기반 자연어 처리 번역 엔진을 상용화한 업체다. 프랑스회사였던 시스트란은 2014년 한국벤처기업 CSLi가 550억원에 사들였다. 시스트란은 우선 번역원의 전문 연구원들이 번역해둔 영조 즉위년~4년치 기록에서 추출된  '한글·한자' 단어쌍 35만개를 기반으로 6개월간 AI 번역 기계학습을 진행했다. 김동필 시스트란 부사장은 "단어와 구문을 쪼개어 번역하는 기존의 통계기반 번역이 아니라 문장을 통째로 파악해 번역하는 인공신경망 번역"이라며 "문장 맥락의 이해도와 정확도가 전문번역사 대비 70%까지 따라왔다"고 설명했다.

후설·견마지치 등 난해한 표현도 OK…사람의 70% 실력

샘플 테스트를 해보니 이 번역기는 승정원의 별칭인 후설(喉舌·국왕의 목구멍과 혀 역할을 한다는 뜻)을 정확히 '승정원'으로, 국왕 앞에서 신하의 나이를 낮춰 표현하는 말인 견마지치(犬馬之齒)를 '개와 말의 이빨'이 아니라 '미천한 신의 나이'로 번역했다. 문맥을 이해할 수 있기에 가능한 것이다. 하지만 고전 한문 번역은 문맥에 따라 조사 한 글자의 의미도 최대 26가지로 달라질 정도로 복잡해 일반적인 '한·영' '한·일' 번역에 비해서는 해석 오류가 많이 발생한다. 실제로 '나이가 이제 육십 하고도 육이 되었다(今六十有六矣·66세)'라는 문장을 앞의 60(六十)만 읽고, 뒤의 6(有六)은 그냥 넘겨 '60세'로 해석하는 실수가 나왔다. AI의 번역문을 전문 번역사들이 반드시 윤색하고 교열 보는 이유다.

조선 역사의 보고(寶庫)인 승정원일기를 전문번역사와 AI가 협력해 완역해낸다면 과학기술·의학·음식·의복 등 전 분야에 걸쳐 한류(韓流)를 이끌 문화 콘텐츠가 발굴될 것이라는 기대감이 크다. 전 세계를 휩쓴 드라마 '대장금' 신화의 시작은 조선왕조실록에 기록된 "내 증세는 여의(女醫) 장금이 안다"는 중종의 한마디였다. 백한기 센터장은 "1993년 완역된 조선왕조실록이 소설·영화 등 수많은 콘텐츠를 배출한 것처럼, 승정원일기가 AI와 더불어 완역되면 또 다른 한류의 원천이 될 것"이라고 말했다.