인공지능(AI) 벤처 기업 마인즈랩은 지난 8월 네이버 투자 펀드로부터 10억원, 벤처캐피털 등으로부터 60억원, 총 70억원을 투자받았다. 직원 약 15명의 작은 벤처 회사에 대규모 투자가 이뤄진 이유는 뭘까. 그 답은 사람의 음성을 인식하는 독보적인 AI 기술에 있다.

마인즈랩은 챗봇(chatbot), 음성인식 빅데이터 분석, 한국어·영어 응용한 음성 인식 기술 등을 보유하고 있다. 이 회사는 콜센터용 AI 솔루션 ‘고객의 소리(VoC)’, AI 스피커 ‘초롱이’를 선보였다. 9월 23일에는 미국 뉴저지에 법인을 설립, 미국 콜센터에 VoC를 제공할 계획이다.

지난 9일 유태준 마인즈랩 대표와 박성준 부사장, 황이규 AI연구소장을 만나 사업 현황, 한국어 기반 AI 가능성과 한계에 대한 의견을 들었다.

오른쪽부터 유태준 마인즈랩 대표, 황이규 마인즈랩 AI연구소장, 박성준 마인즈랩 부사장.

◆ 콜센터에서 AI로 답하는 기술 개발 

마인즈랩은 2014년 1월 한국전자통신연구원(ETRI)으로부터 현물(AI 기술)을 투자받아 설립한 기업이다. 첫 아이템은 ‘소셜 빅데이터 분석’을 통한 컨설팅 서비스였다. 연간 매출액이 1억원에 그칠 정도로 사업 성과가 미비했다.

마인즈랩은 사업 방향을 음성인식으로 틀었다. ETRI의 음성인식 기술을 추가로 이전받았고 콜센터의 통화 내용을 분석해 답변을 제공해주는 VoC 프로젝트를 시작했다. 지난해 4월에는 AI를 적용, 음성인식 기술을 업그레이드했다.

유태준 대표는 “AI 기술 중 딥러닝(기계학습)을 음성인식에 적용했는데, 음성인식률이 기존보다 10% 올라간 것을 확인했고 콜센터에 적용한 서비스 같은 경우 상담원의 목소리 인식률이 95% 이상으로 올랐다”면서 “이 기술을 기반으로 다양한 AI 솔루션을 만들 수 있다고 생각했다”고 말했다.

그는 ”마인즈랩의 VoC는 콜센터에 들어온 고객의 상담전화와 상담원의 목소리를 인식하고 텍스트로 저장해 이를 분석하는 솔루션”이라면서 ”VoC를 적용하면 콜센터 상담 내용을 통계적으로 분석할 수 있게 되고 고객 맞춤형 서비스도 제안할 수 있게 된다"고 말했다.

AI를 적용한 가상 도우미(Virtual Assistant)를 적용한 콜센터의 체계도.

◆ 마인즈랩 AI의 3단계 ‘음성인식’, ‘분석’, ‘답변’

VoC는 음성인식, 분석, 답변의 3단계로 이뤄진다.

음성을 텍스트(문자)로 바꿔주는 STT(Speech To Text)가 음성인식 기술의 출발점이다. 마인즈랩은 ETRI의 알고리즘을 사용해 컴퓨터에 음성을 알아듣는 방법을 가르쳤다.

처음에는 컴퓨터가 특정 단어의 음성이 무슨 뜻인지 알아들을 수 있도록 사람이 개입해 하나하나 가르쳤다. 이를 지도 학습(Supervised Learning)이라고 하는데, 사람이 컴퓨터에 주입식 교육을 한다고 보면 된다. 이때 컴퓨터에 여러 사람의 목소리로 수많은 단어를 배우게 해서 음성인식이 가능하게 만든다.

문제는 밸런스 조절이다. 특정한 목소리와 정확한 발음으로만 학습하면, 약간만 조건이 바뀌어도 단어를 알아들을 수 없게 된다. 하나의 조건에 지나치게 맞춤화돼 있다고 해서 이런 상황을 오버피팅(Over fitting)이라고 한다.

가령 여자상담원의 목소리로 정확한 발음의 단어만을 학습시키면, 사투리를 쓰는 남성 고객의 단어를 알아들을 수 없다. 오버피팅 문제가 발생하지 않도록 밸런스를 조절하는 것이 마인즈랩의 기술력인 셈이다.

음성을 텍스트로 치환하는 STT 단계를 지나면 텍스트를 분석하는 단계에 접어든다. 우선 자연어 분석으로 문장을 형태소 단위로 분석하고 단어의 의미를 매칭한다. 자연어 분석을 위한 형태소 분석기와 단어 사전 데이터베이스(DB)가 AI에 있어야 한다. 또 텍스트 분석 단계에서 사용된 단어와 어미를 분석하면 화자의 의도와 감성도 분석할 수 있다.

자연어 분석이 끝나면 해당 질문이나 상담 내용 등 말한 내용에 따라 답변을 찾게 된다. 전화번호를 물었을 경우 전화번호부를 검색해서 답변을 찾는 것이다.

찾은 답변은 텍스트화한다. 문장 유형이 입력된 곳에 각 단어를 배열하는 식으로 텍스트가 만들어지면 이를 다시 음성으로 전환해 AI가 최종 답변을 해주는 것이다.

결국 마인즈랩의 VoC나 AI 스피커에는 음성을 텍스트로 바꿔주는 엔진, 텍스트를 분석하는 엔진, 해당 내용에 필요한 답을 찾는 엔진, 답을 텍스트로 바꿔주는 엔진, 텍스트를 소리로 바꿔주는 엔진 등 5~6개의 엔진이 통합돼 탑재돼 있다.

유태준 대표는 ”이 엔진마다 딥러닝 기술을 적용해 엔진이 나날이 발전한다"고 덧붙였다.

왼쪽부터 황이규 연구소장, 박성준 부사장, 유태준 대표. 세 사람이 마인즈랩 미국 진출과 관련된 자료를 보며 회의중이다.

◆ 말뭉치 분석 데이터가 빈약하다...한국어 AI의 한계

황이규 마인즈랩 AI연구소장은 “한국어와 영어는 자연어 처리부분에서 형태소 분석, 개체명 인식 등이 근본적으로 다르다”면서 “형태소 분석, 구문분석, 의미분석 등 언어처리 단계에서 오류가 나면, 다음 단계에서도 계속 문제가 생긴다”고 말했다.

영어는 문법적으로 비문을 가려내는 규칙을 가지고 있다. 어순을 지켜야 하고, 특정 요소가 생략되면 잘 이해가 안 되는 특징 등이 있기 때문에 반드시 넣어야 하는 단어도 있다.

황이규 연구소장은 “한국어는 어순도 자유로울뿐더러 생략이 쉽기 때문에 그런 문장을 구문이나 문법적으로 분석하기가 쉽지 않다”면서 “문장을 분석할 때 목적어, 수식어, 수식하는 단어 등으로 분석하는 게 쉽지 않다”고 말했다.

영어권에서의 언어 분석이 쉬운 또 하나의 이유는 학습 데이터를 대규모로 구축해왔다는 점이다. 가령, 펜실베이니아 대학교는 ‘언어학 데이터 컨소시엄(Linguistic Data Consortium)’을 만들었다. 형태소 분석을 위한 데이터, 구문분석을 위한 데이터, 의미분석을 위한 데이터, 음성인식에서도 억양(intonation) 분석 데이터까지 구축했다. 프린스턴대나 컬럼비아대에서 석사나 박사를 딴 언어학자들이 이런 작업을 했다.

황이규 소장은 “아마존의 에코는 학습시간과 데이터 자체가 규모 면에서 압도적인데, 언어처리나 음성인식과 관련해 심리학자, 언어학자 등이 함께 일을 하며 그 수준을 높이고 있다”고 말했다.

이런 사례를 본떠서 국립국어원이 21세기 말뭉치 세종계획을 실행했지만, 데이터양과 질 측면에서 영어와 비교했을 때 부족한 점이 많다.

황이규 소장은 “한국에서는 언어학자가 데이터를 구축하는 일을 크게 인정받지 못하다 보니, 이 분야의 충분한 인력을 확보하기가 어렵고 각종 프로젝트도 단기로 끝난다"면서 “장기적으로 국가 차원에서 말뭉치를 만드는 작업을 지속하고 대접받는 분위기가 형성되면 좋겠다"고 말했다.

◆ “AI 대전환 2년 내 온다"

왼쪽부터 박성준 부사장, 유태준 대표, 황이규 연구소장. 유 대표는 앞으로 미국 진출과 추가 투자 유치 등에도 강한 자신감을 보였다.

유태준 대표는 “한국어 AI는 척박한 상황에서 영어 못지않게 잘 따라왔다고 생각한다”며 “음성인식부터 해서 자연어 처리라던지 이런 부분들이 아직은 낮은 수준이라고 보시는 분들도 있지만 그렇게 생각하지 않는다”며 한국어와 AI에 대한 자신의 의견도 나타냈다.

그는 “현재 ETRI 연구원들도 열심히 하고 여러 대학의 젊은 교수들이 한국어 딥러닝을 연구해 시장에서 그 효과를 내고 있다”며 “그렇게 비관적이고 낮은 수준은 아니며 선진국들의 기술에 많이 접근했다고 본다”고 말했다.

다만, 그도 한국어 말뭉치 수준에 대한 아쉬움은 드러냈다. 그는 “영어는 5000시간 넘는 음성 코퍼스(말뭉치)가 있어서 AI를 학습시키면 굉장히 인식률이 좋아지고 응답도 잘한다”며 “한국어 음성 코퍼스가 없어서 마인즈랩이 만들고 있다”고 말했다.

마인즈랩은 지난 7월부터 1년짜리 한국어 음성 말뭉치 프로젝트로 진행하고 있다. 올해 중 베타 버전을 선보이는 게 목표다.

유 대표는 “현재 AI 기반의 산업은 네이버, SK, 삼성 등 대기업 모두 뛰어들면서 상생보다는 경쟁하는 구도가 됐다”며 “연구실에 있던 기술이 산업계에 등장하기 시작했으므로 AI에 따른 대전환은 1~2년 안에 일어날 것”이라고 말했다.

그는 “현재 마인즈랩은 딥러닝 기술을 법률사무소에 제공해 AI 변호사를 만들고 있고 AI콜센터를 만들어 분야를 가리지 않고 상담을 할 수 있는 플랫폼 사업 모델도 구상 중”이라면서  “AI가 인간을 대체하는 4차 산업 혁명이 눈앞에 와 있다”고 말했다.