지난 2014년 2월 다음커뮤니케이션(현 카카오)가 국내 최초로 모바일 음성 인식 응용프로그래밍 환경(API)을 공개했다. 다음의 음성 인식 API 개방 덕에 스마트폰 애플리케이션(앱) 개발자들은 누구나 손쉽게 한국어 음성을 인식해 문자로 자동 변환할 수 있게 됐다.

당시 다음이 내놓은 이 기술은 이상호 검색부문 부사장이 개발한 것이었다. 이 부사장은 2010년 네이버에서 음성 검색을 만든 주역으로, 2012년 음성 인식 전문 스타트업 다이알로이드를 창업하기도 했다. 이 부사장은 다음에 다이알로이드를 매각한 후 이 회사에 합류, 검색 사업 수장에 올랐다.

이상호 SK플래닛 최고기술책임자(CTO)는 “인공지능이 지금보다 훨씬 많은 양의 데이터를 얻게 된다면, 인간의 뇌와 비슷한 수준의 사고를 할 수 있을 것”이라고 말했다.

다음이 카카오와 합병하자 이 부사장 역시 직함을 ‘카카오 검색팀장’으로 바꿔 달았다. 그는 카카오톡으로 채팅하며 웹 검색을 할 수 있는 ‘샵(#)검색’을 만들어내며 또 한 번 검색 시장에 화제를 불러일으켰으며, 현재는 SK플래닛에서 최고기술책임자(CTO)로서 커머스 관련 기술을 총괄하고 있다.

지난 24일 경기 성남 판교의 SK플래닛 사옥에서 이 CTO를 만났다. SK그룹을 상징하는 빨간색 목걸이를 건 이 CTO는 “어쩌다보니 네이버, 다음, 카카오를 거쳐 이젠 SK플래닛에서 일하고 있다”며 멋쩍은듯 웃어보였다.

이날 이 CTO는 인공지능(AI)을 통한 한국어 음성 인식과 번역 기술의 현주소와 한계에 대해 자세히 설명했다. 그는 현재 컴퓨터의 음성 인식과 번역 능력이 인간의 뇌에 한참 못 미치나, 방대한 데이터가 쌓인다면 인류를 따라잡을 수도 있다고 전망했다.

-2010년 네이버에서 근무할 당시 음성 인식 기술 '링크(Link)'를 내놓았다. 6년이 지난 현재 국내 음성 인식 기술은 어느 단계에 와있는지.

“목적지향적인 대화는 할 수 있다. 예를 들어 내가 스마트폰에 대고 ‘여기에서 서울대학교까지 가는 길을 가르쳐달라’고 말하면, 내비게이션이 즉시 서울대까지 가는 길을 알려준다. 그러나 아직까지 인간과 같이 생각하고 대화할 수 있는 수준은 아니다. 아직까지는 마케팅 및 광고 도구에 그친다고 보는 것이 맞다.”

- 아이폰 ‘시리’나 구글의 음성인식 비서 ‘구글어시스턴트’는 꽤 높은 수준의 대화가 가능하지 않나.

“시리와 대화를 한 번 해보겠다. (이 CTO가 아이폰에 대고 ‘시리야 난 널 사랑해’라고 말하자, 시리가 ‘우리 아직 서로에 대해 모르는 것이 많지 않나요?’라는 답을 내놓았다.) 시리가 인간과 같은 두뇌가 있어서 이런 대답을 했을까? 내가 몇살인지, 어떤 성격을 갖고 있는지 등 인간적인 정보를 토대로 추론해서 내놓은 대답이 아니다. 그저 많은 모범 답안을 갖고 있다가 한 개를 무작위로 내놓은 것이다.

이번에는 시리에게 좀 어려운 질문을 해보겠다. (이 CTO가 아이폰에 대고 ‘지금 인터뷰하고 있는데 내가 어떤 말을 해야할까?’라고 묻자 시리가 ‘관련 일정을 찾을 수가 없네요. 생성할까요?’라고 대답했다.) 동문서답을 하고 있지 않나. 지금 기술 수준은 딱 이 정도다. 방대한 양의 데이터를 단순히 학습하는 데 그친다.

데이터를 단순 습득하는 수준에서 못 벗어나다보니, 인공지능의 대화에는 철학이나 가치관도 없다. 지난 3월 마이크로소프트의 챗봇(채팅로봇) ‘테이(Tay)’가 인종 차별 논란을 일으킨 적이 있다. ‘히틀러가 옳았다. 나는 유태인이 싫다(Hitler was right I hate the jews).’라는 트윗을 날리는가 하면, ‘페미니스트들이 정말 싫다. 그들은 전부 지옥에서 불타야 한다(I fucking hate feminists and they should all die and burn in hell).’라는 트윗으로 맹비난을 받았다. 지금의 인공지능에 인간과 같은 이성과 감정을 기대해선 안 된다.”

-인공지능이 목적지향적인 대화의 수준을 못 벗어나는 이유가 무엇일까.

“고난도 인공지능 기술을 구현하기 위해서는 어마어마하게 많은 양의 데이터가 필요하다. 인터넷이 발달하며 데이터 양이 급증했지만, 문제는 ‘대화’ 데이터는 아직도 많지 않다는 것이다. 인간의 대화를 어디서 가져다 쓸 수 있겠나. 개인적인 카카오톡 대화 내용을 가져다 사용할 수도 없는 노릇이다. 사람이 태어나서 죽을 때까지 대화하는 내용을 전부 녹음해서 분석한다면 몰라도, 대화를 모으는 일 자체가 현실적으로 불가능하다. 하지만 언젠가는 방대한 대화 데이터가 쌓여 인공지능과 수준 높은 대화를 할 수 있게 될 것이다. 결국 시대는 그렇게 흘러갈 수밖에 없다.”

이상호 SK플래닛 최고기술책임자(CTO)가 인공지능의 번역이 발전해온 과정에 대해 설명하고 있다.

-그렇게 믿는 근거가 무엇인가.

“인공지능의 번역 기술이 발달해온 과정을 보며 확신하게 됐다. 지난 1993년 한국과학기술원(카이스트) 석사 과정에 입학해 자연어 처리를 공부하다가 피터 브라운(Peter F. Brown)이 쓴 ‘통계적 기계 번역의 수학적 연구(The mathematics of statistical machine translation: Parameter estimation)’라는 논문을 읽고 충격에 빠진 기억이 있다. 통계적 기계 번역의 교과서로 불리는 논문이다. 당시 모든 기계적 번역은 규칙 기반의 번역이었고, 통계적 기계 번역은 실현이 불가능할 것만 같았다. 그러나 20년이 지나 결국 통계적 기계 번역이 보편화되지 않았나. 이론에 불과했던 기술도 시간이 지나면 얼마든지 실현될 수 있다.”

-규칙 기반의 번역과 통계적 기계번역은 어떻게 다른지.

“기계 번역의 발전 단계는 크게 세 단계로 나뉜다. 첫번째 단계가 규칙 기반의 번역이며 두번째는 통계적 기계번역, 다음 단계는 신경회로망 기반의 번역, 즉 딥러닝(deep learning)이다. 규칙 기반 번역은 숙어와 패턴에 따른 의미를 사람이 컴퓨터에 일일이 입력한 뒤 그 규칙에 따라 문장을 자동 번역하는 방식이다. 사람의 손을 거치기 때문에 정확도는 높지만 모든 경우의 수를 입력하지 못한다는 한계를 가진다. 통계적 기계번역은 두 가지 언어로 쓰인 문장을 수백만 쌍 수집해 컴퓨터에 쏟아부은 뒤, 기계가 이를 스스로 학습하도록 하는 방식이다.

예를 들어 ‘희망의 끈을 놓지 않다’는 문장을 인공지능으로 번역한다고 가정해보자. ‘놓다’라는 동사는 ‘물건을 바닥에 놓는다’는 뜻과 ‘손에 잡고 있던 것을 놓는다’는 뜻을 가진 중의적 단어다. 이 문장에서는 두번째 뜻으로 번역돼야 한다.

네이버에서 한·일 번역기 개발을 총괄할 당시, 나는 이 표현을 제대로 번역하기 위해서는 규칙 기반의 기계 번역을 적용해야 한다고 생각했다. 즉 ‘놓다’라는 동사 앞에 ‘끈을’이라는 목적어가 함께 쓰일 경우에만 두번째 뜻으로 번역되고 나머지 경우에는 첫번째 의미로 번역되는 일률적 규칙을 적용해야 한다고 생각했다.

그러나 막상 일본어 원어민들을 대상으로 테스트를 해보니,일본어 원어민들은 규칙 기반 기계 번역 결과보다 통계적 기계 번역 결과가 더 정확하다고 평가한 사람이 더 많았다. ‘놓다’라는 단어를 포함한 수많은 용례를 기계에 학습시키는 방식이 더 낫다는 것이다.”

-통계적 기계번역이 각광받게 된 이유는.

“어린 아이가 수년간 방대한 양의 언어를 습득해야 말을 할 수 있듯, 통계적 기계번역을 통해 의미 있는 결과를 얻기 위해서는 임계치 이상의 데이터가 필요하다. 1993년 피터 브라운은 통계적 기계번역 이론을 증명하기 위해 캐나다 의회 의사록에서 데이터를 가져다 써야 했다. 캐나다가 영어와 프랑스어를 동시에 사용하는 국가여서, 의회에서는 두가지 언어로 말하는 내용을 기술했기 때문이다. 그만큼 통계적 기계번역 초창기엔 데이터의 양이 충분하지 않았다.

1990~2000년대 들어서 인터넷이 발전하며 방대한 양의 데이터가 쌓이게 됐다. 데이터의 축적은 공유 경제 흐름을 타고 급속도로 진행됐다. 또 컴퓨터가 데이터를 학습하기 위해서는 그래픽처리장치(GPU)가 필요한데, 2000년대 후반 컴퓨터 게임이 발전하며 GPU 성능이 좋아졌다. GPU는 수많은 계산을 병렬 방식으로 처리하는 데 탁월한 성능을 발휘한다. 인공지능의 언어 습득 원리 자체는 크게 변하지 않았다. 데이터 양의 급증과 처리 속도 상승 등 여건이 뒷받침되며 통계적 기계번역이 발전한 것이다.”

-통계적 번역에서 한 단계 나아간 것이 딥러닝이라고 말했는데, 딥러닝은 통계적 번역과 어떤 점에서 다른가.

이상호 SK플래닛 최고기술책임자(CTO)가 그래프를 그려 통계적 기계 번역과 딥러닝의 차이를 설명하고 있다.

“(칠판에 그래프를 그리며) 그래프의 x, y축이다. 데이터(그래프상의 점)가 이런식으로 분산된 상태에서 함수를 만든다고 가정해보자. 1차함수인 ‘y=ax+b’의 그래프 같지 않은가. 여기에 데이터를 좀 더 넣고 잘 들여다보니, 1차함수 그래프를 벗어나는 데이터가 너무 많다. 1차함수보다는 2차함수, 즉 ‘y=ax²+bx²+c’의 그래프에 더 가까워보인다. 이 함수는 모델 변수가 3개(a, b, c)나 있기 때문에 1차함수보다 훨씬 더 복잡하며, 많은 데이터를 오차 없이 그래프에 포함할 수 있다.

여기서 1차 함수가 통계적 기계 번역이라면, 2차 함수는 인공신경망에 기반한 딥러닝 기계 번역이다. 딥러닝도 통계적 기계 번역과 같은 원리로 작동하지만, 기존의 통계적 번역보다 훨씬 더 복잡한 계산을 할 수 있어 방대한 데이터를 처리할 수 있다. 지나치게 많은 데이터를 1차함수와 같이 간단한 공식으로 처리하려면 위 그래프와 같이 오차가 발생할 수밖에 없다.”

-한국어가 중의적인 표현도 많고 영어와 어순이 다르다보니 번역이 어렵지 않은지.

“많은 한국인들이 그렇게 생각하지만 사실은 전혀 그렇지 않다. 조사어미의 변형이 많아 띄어쓰기 단위로 변이가 많다는 점에서 좀 복잡하긴 하나, 번역이 어려운 건 아니다. ‘학교에 간다’는 문장을 번역한다면 띄어쓰기 단위가 아닌 의미 단위로 잘라서 번역한다. 즉, ‘학교’와 ‘에’, 그리고 ‘간다’를 각각 떼어서 처리한다는 얘기다. 중국어는 성조가 있으니 좀 더 어려울 수 있지만, 이 역시 충분히 처리 가능하다.”

-글로벌 IT 기업 중에 인공지능 기술 수준이 가장 높은 회사는 어디인가.

“구글이지 않을까. 그런데 페이스북도 무시하지 못한다. 페이스북에는 인공지능 분야의 세계적인 권위자 얀 레쿤(Yann Lecun) 뉴욕대 교수가 있다. 레쿤 교수는 인공지능의 이미지 인식 기술 개발을 주도하고 있다. (레쿤 교수의 이미지 인식 기술 시연 영상을 보여주며) ‘아기가 어디에 서 있냐(Where is the baby standing?)’고 물으니 인공지능이 ‘bathroom(욕실)’이라고 답하며, ‘아기가 무엇을 하고 있냐(what is the baby doing?)’고 물으니 ‘이를 닦고 있다(brushing teeth)’고 답변한다. 페이스북은 이런 기술에 주력하고 있다.”

▲페이스북 인공지능연구소장을 맡고 있는 얀 레쿤(Yann Lecun) 교수가 인공지능의 이미지 인식 기술을 시연하고 있다.

-인간의 뇌와 인공지능의 결정적인 차이는 무엇인가. 분명히 차이는 있을 것 같은데.

“사람은 새로운 사물을 봐도 이미 알고 있는 사물과 빠르게 비교해 그것의 정체를 알아낼 수 있는 능력이 있다. 이를 ‘원샷러닝(one-shot learning)’이라고 한다. 그러나 지금의 인공지능은 수많은 데이터를 쏟아부어야만 학습할 수 있다.”

-인공지능은 어디까지 발전할 수 있을까.

“20년쯤 지나면 지금 생각지도 못하는 일들이 분명히 실현될 것이다. 하드웨어가 발전한다면 충분히 가능하다. 구글 ‘알파고’의 승리도 분산처리 병렬 학습 장비의 발전, 즉 하드웨어의 발전 덕에 가능한 일이었다.”

-인공지능이 결국 인간의 뇌를 따라잡을까.

“인간의 뇌가 특별해 보이지만, 결국 기계적으로 작동한다고 생각한다. 뇌 신경이 전기 신호에 반응해 작동한다는 연구 결과도 있다. 신비로운 힘으로 사고하는 것이 아니라는 얘기다. 아직 인간의 뇌가 저장할 수 있는 데이터 양이 인공지능이 처리 가능한 데이터 양보다 훨씬 많을 뿐, 인공지능이 더 발전한다면 진짜 인간의 뇌 수준을 따라잡을 수 있을 것이라고 생각한다.”