구글, 마이크로소프트(MS) 등 대형 IT 기업들이 인공지능(AI)을 기반으로 고대 상형문자나 멸종위기에 놓인 소수 민족들의 언어 번역에 나서고 있다.

16일 CNN 등 주요 외신에 따르면 구글은 최근 고대 이집트의 언어로 알려진 히에로글리프를 번역할 수 있는 AI 번역기를 내놓았다. 아직 초기 모델인만큼 완벽하진 않으며, 학습과 시행착오를 거쳐야하지만 학계에서는 AI의 고대 상형문자 이해도가 높아질수록 인류 역사를 이해하는 데 기여도가 높아질 것이라는 기대를 나타내고 있다.

한때 ‘신들의 언어’로 불린 고대 이집트 상형문자가 돌에 새겨진 모습.

히에로글리프는 고대 이집트 문명에서 사용된 문자로, 기원전 3000년대 초반해 발생한 것으로 추정된다. 이후 3500여년 가까이 사용되며 전 세계에서 가장 오랜 기간 사용된 문자로 알려졌다. 하지만 이집트가 그리스 문화권에 속하며 서서히 사라지기 시작해 540년경에 완전히 사용이 중지된 것으로 전해진다.

구글의 AI 번역기는 현재 세계에서 가장 많이 사용되는 번역기로, 신경망 기계번역(Neural Machine Translation) 기술에 기반한 것으로 알려졌다. 이전의 번역기와 달리 방대한 데이터를 바탕으로 문장을 통째로 번역해 AI가 스스로 문장의 맥락을 이해하는 방식이다. 데이터 기반의 AI인만큼 이용자가 늘수록 번역기의 정확성도 높아진다.

특히 구글이 지난 2018년 자연어 처리 모델인 BERT를 내놓은 이후 AI의 언어 이해, 생성 모델은 새로운 전기를 맞고 있다. BERT는 가장 대표적인 자연어처리 평가지표인 GLUE(General Language Understanding Evaluation)와 SQuAD(Stanford Question Answering Dataset)에서 인간보다 더 뛰어난 성적을 보여주면서 전 세계 학계에 충격을 안기기도 했다.

마이크로소프트(MS) 역시 지난 2015년 멕시코의 소수언어인 유카텍어와 오토미어의 자동번역 시스템을 만들었다. 고대 마야 제국의 언어에서 유래한 유카텍어는 현재 80만명 이하의 사람들이 사용하고 있으며, 오토미어는 사용인구가 현재 3만3000명이 채 안된다. MS는 자동번역 프로그램이 이들 언어 사용자들이 여러 세대를 거쳐 자신의 언어와 문화를 보호하는 데 도움을 줄 것이라고 보고 있다.

다만 난관도 있다. 우선 현재 사용되는 언어처리 AI의 경우 사용량이 많을수록 정확해진다. 영어, 스페인어, 중국 등 사용 인구가 많은 언어들의 번역 정확도가 상대적으로 높은 것도 이와 무관치 않다. 멸종 위기의 언어의 경우 대부분 사용하는 사람들이 많지 않기 때문에 데이터 축적까지 시간이 오래 걸린다는 걸림돌이 있다.

고대 문자 역시 마찬가지다. 히에로글리프의 경우 3500년간 사용되면서 언어의 용법이나 사용방식이 계속해서 달라졌으며, 상형문자뿐만 아니라 표음문자(말소리를 기호로 나타낸 문자)도 섞여있는 복잡한 형태이기 때문에 기존에 사용되는 알파벳 기반의 언어와는 차이가 크다. 인도의 산스크리트어 역시 동사 시제만 10개, 3개의 문법적 성(性) 구분 등 복잡성이 높아진다.

로널드 에머리히 리버풀대 이집트학 박사는 CNN과 인터뷰에서 "매우 인상적인 기술이긴 하지만 AI가 히에로글리프를 완전히 이해하는 데 큰 장애물이 있다"며 "고대 문자의 경우 대부분이 손으로 쓰여진 글씨이며 오랜 시간에 걸쳐 문자의 의미와 맥락이 달라졌다. 하지만 (잊혀진 언어를 이해하는데 있어) 아주 중요한 첫 걸음"이라고 강조했다.