자연어처리 전문기업 솔트룩스가 책 60만권(권당 220페이지) 분량의 지식을 학습한 인공지능(AI) ‘아담’을 공개했다. 아담은 2000만 가지 주제에 대해 응답이 가능하다. 가령, “트럼프의 부인이 어디에 사는지 알려줘”라고 물으면 아담은 “멜라니아 트럼프는 미국 뉴욕에 살고 있습니다”라고 답하는 식이다.
솔트룩스는 1979년 6월 창립된 다국어 언어처리 전문기업 모비코인터내셔널과 2000년 8월 창립된 자연어처리, 시맨틱 검색 전문기업 시스메타가 2003년 합병하며 사명을 변경한 회사다.
솔트룩스는 지난달 장학퀴즈 대회에서 우승한 한국전자통신연구원(ETRI)의 AI ‘엑소브레인’의 지식데이터베이스(DB) 엔진 개발을 맡은 곳이기도 하다.
이경일 솔트룩스 대표는 “20년 넘게 자연어 처리를 하면서 쌓은 거의 모든 노하우를 아담에 담았다”면서 “아담은 의료 분석, 로봇 컨시어지, 콜센터 상담, 가상비서 역할을 할 수 있다”고 말했다.
이 대표는 지난달 아담을 공개하면서 아담이 쓰는 80억건의 데이터베이스(DB)도 개방했다. 한국의 AI 생태계를 활성화할 필요가 있다는 판단이었다. 솔트룩스와 파트너십을 체결하면 이 DB를 활용할 수 있다. 솔트룩스는 2018년에 아담의 여자 친구이자, 금융 등 5억개의 전문지식을 가진 AI ‘이브’도 공개할 예정이다.
이 대표는 인하대 공대 석사를 마친 후 LG중앙연구소 선임연구원을 거쳐 2001년부터 2003년까지 시스메타 대표이사를 맡고 2003년부터 솔트룩스 대표를 맡았다. 이 대표를 직접 만나 심층 질의응답이 가능한 AI 탄생과 진화 방향에 대해서 자세히 들어봤다.
― 솔트룩스가 AI 아담을 내놓을 수 있었던 배경은 무엇인가?
“솔트룩스는 기업용 검색엔진을 오랫동안 공급해왔다. 또 상담센터의 목소리 분석, 빅데이터 분석 플랫폼 등을 공급하면서 사업을 진행해 왔다. 이 때 가장 중요한 기술 중 하나가 사람의 말을 기계가 이해하도록 하는 자연어 처리 기술이다.
자체적으로 DB도 쌓아왔다. 공공 데이터, 소셜데이터(뉴스, SNS 등에 올라온 정보) 등을 축적하고 분류해왔다. 즉, 자연어 처리 기술에 텍스트 마이닝, 지식 자원 수집, 기계학습, 지식베이스 학습·추론 기술 등을 더해 아담을 만들어낸 것이다.”
― 솔트룩스의 자연어 처리 기술을 자세히 설명해달라.
“솔트룩스는 형태소 분석기, 개체명 분석기, 구문 분석기, 시멘틱 분석기, 감성 분석기 등을 자체 기술로 개발해 보유하고 있다. 이 각각의 엔진에 딥러닝 기술을 접목한 지 2년 6개월이 됐다. 딥러닝을 적용하니, 형태소 분석기(엔진)의 정확도는 96%에서 98%로 올라갔다. 이밖에 개체명 분석기의 정확도 90%, 감성분석기의 정확도는 80% 정도다.
각 엔진들은 솔트룩스가 개발한 뉴스서비스 애플리케이션(앱) ‘지니뉴스’에도 적용된다. 지니뉴스는 사용자의 나이, 성별, 거주지에 따라 뉴스를 추천하고 사용자 심리에 따라 관심있는 것을 파악해 뉴스를 추천한다. 딥러닝을 통해 사용자별로 관심을 학습한다고 생각하면 된다. 이런 기능들은 당연히 아담에도 담겨져있다.”
― 딥러닝을 적용한 지니뉴스 뉴스 추천 방식에 대해 조금 더 설명해줄 수 있나.
“지니뉴스 엔진(기계)은 사용자들이 클릭하며 읽은 콘텐츠를 수집한다. 해당 콘텐츠의 내용을 자연어 분석을 통해 분류한다. 이런 분류 과정을 거치면 기계는 사용자가 선호하는 유사 콘텐츠를 골라내 사용자별로 뉴스를 추천해 줄 수 있다.
유사 콘텐츠를 골라내는 방식은 콘텐츠의 특성을 벡터(좌표)값으로 환산해 분류하는 방식을 택하고 있다. 벡터는 일종의 수치인데, 유사한 콘텐츠들은 서로 값이 비슷하다.
솔트룩스는 하루 500만개의 정보를 수집한다. 이 정보를 하나하나 벡터값으로 전환하는 것이다. 기계가 실시간 계산 속도를 높여야 바로바로 적용이 가능한데, 솔트룩스는 기계의 계산 속도를 향상시키는 방법에 대해 특허를 갖고 있다.”
― 아담 공개 행사 때 장학퀴즈와 비슷한 이벤트를 진행했다. 아담의 답변 정확도는 얼마나 되나.
“현재 사용자가 물어보는 질문의 70%는 정확하게 답한다. 100개의 질문을 했다고 하면 70개의 답변이 정확한 것이다. 장학퀴즈에서 우승한 ETRI의 AI 엑소브레인은 솔트룩스가 개발한 지식DB엔진을 쓴다.
AI에서 데이터는 연료와 같다. 딥러닝이나 기계학습을 적용해 학습 알고리즘을 만들었다고 해도 학습시킬 데이터가 충분하지 않으면 제 역할을 할 수 없다. 솔트룩스는 CPU 2200개를 바탕으로 하루 500만개의 데이터를 수집해 AI에 학습시킬 데이터를 계속해서 추려왔다.
데이터 종류는 다양한 분야가 있다. 소셜데이터라고 해서 공공기관에서 공개한 통계 데이터를 비롯해 뉴스 등 온라인 상에 공개된 문서에 담긴 정보, 학술 정보 등이 포함돼 있다. 앞서 말했듯이 데이터는 AI의 연료이기 때문에 꾸준히 모아서 분류해 활용할 수 있도록 해놓았다.”
― 아담은 심층 질의에 대해 어떻게 답변하나.
“‘트럼프의 부인이 어디에 사는지 알려줘’라는 물음에 대답해야 한다고 가정해보자. 아담은 형태소 분석과 개체명 분석, 구문 분석 등 자연어 처리 과정을 거쳐 트럼프가 누구인지를 인식한다. 그 다음 아담은 맥락상 그의 부인을 찾아내야 한다는 것을 인지한다. 이후 아담은 부인에 대한 정보, 특히 어디에 사는지를 검색한다.
이때 중요한 것이 지식DB엔진이다. 트럼프의 부인은 여럿이다. 이 때문에 아담은 여러 명에 대한 답을 내놓을 것이다. 좀더 구체적인 답변을 원한다면, ‘두번째 부인이 어디 사느냐'라고 특정지어 물어주면 된다.
아담은 기존에 트럼프가 누구인지 학습했을 것이고 이와 관련해 트럼프의 가족이나 사는 곳 등 관련 정보를 계속 습득해 놓은 것이다. 복잡한 질문도 각 질문을 분석하고 필요한 지식을 찾아내 답변을 만들어낸다."
― 자연어 처리와 AI 분야에 20년간의 업력을 쌓았다. 어려움은 없었나.
“중소기업에게 가장 어려운 것은 인력을 구하는 것이다. 국내에서는 대형 전자업체, 통신업체 등이 많아 정보기술(IT) 분야 인력을 구하기가 어렵다. 외부에서 인력을 끌어오기가 힘들어 결국 내부에서 교육을 많이 시키는 시스템을 만들었다. 한국 교육 시스템상 교육을 많이 받은 사람은 공무원을 꿈꾸거나 의사, 변호사 등 전문직에 진출하려고 한다.
인력을 확보하면 1년에 100시간가량 교육시킨다. 그래도 전문성 있는 인력으로 양성하는 게 쉽지 않다. 우리나라는 소프트웨어 인력을 홀대한다. 일반적인 소프트웨어 개발자 경력 5년차인 사람의 평균 연봉이 한국에서는 5000만원이 채 되지 않는다. 미국에서는 비슷한 인력을 연봉 1억2000만원 정도는 주고 채용한다.
AI 분야도 마찬가지다. 한국의 5년차 경력자는 연봉이 6000만~7000만원, 미국의 비슷한 경력자는 2억원을 넘게 받는다. 이렇다보니 좋은 인력들은 해외로 빠져나갔고 인력 구하기는 더욱 어렵게 됐다.”
― 소프트웨어 개발자들이 제대로 대우받는 방법은 없나.
“기업이나 기관이 소프트웨어를 제값을 주고 구매하면 된다. 한국에서는 그게 잘 안된다.
기관들은 기관대로 하위 기관으로 SW 개발 부서를 만들고 기업들은 SI(System Integration) 회사를 만들어 프로젝트를 관리하기 바쁘다. 프로젝트 관리자는 정규직이고 하위 개발자들은 프리랜서이거나 비정규직일 때가 많다.
프리랜서들은 프로젝트에 따라 회사를 여기저기 옮기기 때문에 10년 경력을 쌓았다고 해서 실력이 늘지 않는 경우도 생긴다. 디지털 일용직이 양산되는 셈이다.”
― 20년간 쌓아온 지식DB를 개방했다. 약 80억건인데, 개방한 이유가 궁금하다.
“DB를 공개해 더 늦기 전에 해외 선도기업과 경쟁할 수 있는 국내 AI 생태계가 마련되기를 바라고 있다. IBM 등이 세계를 무대로 사업을 벌이고 있다.
AI가 산업 전반에 파고들 것이 명약관화한데, 그럴수록 우리 산업은 외국 IT 기업에 대한 의존도가 커지게 된다. 의존도가 높아지면 당연히 서비스의 가격은 올라가게 된다. 이렇게 되기 전에 AI 생태계를 활성화 할 수 있도록 자체 구축한 DB를 개방한 것이다.”
― 솔트룩스는 한국어 AI 기술만 가지고 있나.
“지식DB와 추론엔진 등은 한국어, 영어, 중국어를 모두 다루고 있다. 또 일본에 금융권 기업 3곳에 서비스를 하고 있다. 일본어, 영어는 인식률도 높은 편이다. 중국어와 이외 다른 언어는 최근 학습을 시작했다.”
― AI는 어디까지 왔고, 앞으로 AI가 어디까지 발전할 수 있을 것이라 보는지.
“AI가 언어를 통해 문장을 창조하는 수준이 됐다. 지니뉴스도 3분 브리핑을 할 정도다. 수년 내에는 수준 높은 기사를 작성할 수도 있을 것이라고 본다.
AI는 우선 유통분야에 진출하게 될 것이다. 아마존의 ‘에코’나 SKT의 ‘누구’처럼 상품 주문이 가능하도록 전자상거래(커머스)와 결합하고 있다. 헬스케어와 AI 결합도 중요하다. 아쉽게도 이 분야에서 한국의 발전은 더딜 것이다. 한국에서는 의료 데이터가 각 병원별로 분산돼 있고 개인정보 보호 등을 이유로 활용하는 것이 어렵기 때문이다.
이미 국회에서 이런 규제를 바꾸자는 제안이 나왔지만 저항도 만만치 않을 것이라고 본다.
AI가 제공하는 편익이 어느 수준을 넘어서면 사용자의 의존도가 커질 것이다. 그렇게 되면 개인정보보호 욕구보다 편익 욕구가 커져 규제가 완화할 것으로 본다.
1900년대만해도 은행을 신뢰하지 못하는 사람이 더 많았지만, 지금은 많은 사람들이 집에 돈을 보관하는 것보다 은행에 돈을 보관하는 것이 낫다고 생각하지 않나.
운전자의 내비게이션에 대한 의존도도 마찬가지다. 기술적 안전장치를 주장하기 보다는 편의가 불안을 넘어가는 수준이 되면 AI 관련 분야에서도 데이터 개방이 일어날 것이라고 본다.”
― 해외는 이미 수준이 높은가. 따라잡기 어려운 수준인지.
“한국 AI 기술은 미국 등 선진국보다 5년 이상 격차가 벌어졌다고 생각한다. 3년 후 쯤에는 한국 기업들이 자연어 처리 기술을 많이 따라잡을 것으로 본다. 이미지 인식 처리 기술의 격차도 어느정도 해소할 것이라고 전망하고 있다.
따라잡기 어려운 부분은 앞서 말한 의료 부분과 자율주행이다. 한국의 기술력과 미국의 기술력이 점차 격차가 커질 수 있다. 데이터 축적과 개방, 활용이 돼야 하는데 이게 어렵기 때문이다. 미국에서는 오바마 케어가 시작되기 전에 데이터 활용 부분의 문제가 많이 해소됐는데, 20년 가량 걸린 작업이었다.
한국의 10년 후를 생각하면 투자를 해야하는데 예산 문제에 부딪힐 가능성이 높다. 정부차원에서 추진할 필요가 있다고 생각한다.”
― AI가 인간의 영역을 넘볼 것이란 불안감도 있다. 또 윤리적 규제도 필요하다고 하는데 이에 대해서는 어떻게 생각하고 있나.
“100년이나 200년이 지난 후라면 모르겠지만 지금 그런 우려는 할 필요가 없다. 현재 AI에 대한 평가는 과장됐고 거품이 껴 있다. 사람들이 우려하거나 기대하는 바가 이뤄지려면 아직 멀었다. 10년후에도 사람들이 원하는 기능의 절반밖에 가지지 못할 것이라고 예상한다.
물른 윤리적 문제는 중요하다. 올바르게 학습시켜야 제대로 사용할 수 있다. 또 개발자들 역시 큰 책임감을 가지고 개발에 임했으면 한다. 내비게이션에 오류가 발생하거나 악의를 가진 해커에 의해 조종당하면 사회 전체가 혼란에 빠진다. AI가 금융이나 의료부분에 적용됐다면 더욱 위험해진다. AI의 윤리뿐만 아니라 개발자와 사용자들의 윤리문제도 중요하게 되는 것이다.
부의 재분배 문제도 생각해야 한다. 데이터는 앞으로 권력이자 자본의 핵심이 될 것이다. 데이터가 권력이 되고 알고리즘도 권력이 되는 시점이 올 수 있다. 우버의 경우 현재 기사들과 이용자들에게 혜택을 주는 것 같지만 자율주행 차량이 나오게 되면 기사는 직업을 잃게 된다. 기사에게 주던 수익도 우버가 가져가게 되는 것이다. 또 구글과 같은 IT공룡을 견제하기도 힘들어진다. 유럽이 구글에 대해 반독점 소송을 걸고 있다. 국내 데이터센터에 데이터를 남겨두도록 할 필요가 있다.
경쟁력 강화도 필요한데 미국의 5개 대형 IT기업이 AI에 연간 1조원을 투자하는 데 비해 한국에서는 정부와 사기업의 투자를 모두 합해도 연간 4000억원 수준에 그친다. 앞서 말한 SW와 AI 생태계의 문제를 해소해 인재를 양성하고 창업 성공 사례도 만들 필요가 있다”