삼성전자, 네이버, KT 등 국내 대표 정보기술 기업이 미국 한 스타트업에 잇따라 투자에 나서 화제다. 주인공은 미국 캘리포니아주 산타클라라에 위치한 사운드하운드(SoundHound)다. 음악 식별 애플리케이션 ‘하운드(Hound)’로 잘 알려진 업체로 지난해 3월 음성인식 AI 앱 ‘하운디파이(Houndify)’도 출시, 음성인식 AI 비서 시장에도 도전장을 내밀었다.

삼성전자, 네이버, KT가 투자한 미국 음악 식별 애플리케이션 기업 사운드하운드

19일 관련업계에 따르면, KT는 올해 1분기 사운드하운드에 500만 달러(약 56억4000만원)를 투자하고 인공지능 스피커 기가지니 플랫폼 공동개발하는 기술 협력을 체결했다. KT는 자체 인공지능 플랫폼 ‘기가지니'와 사운드하운드의 하운디파이 기술과 음성 제어 기능을 통합한 ‘기가지니2.0’을 선보이겠다는 계획이다.

사운드하운드는 KT(030200)뿐만 아니라 삼성전자, 네이버를 비롯해 엔비디아 등 글로벌 AI 업체들로부터 자금을 유치했다. 사운드하운드는 올해 1월 삼성전자가 만든 ‘삼성촉진펀드(Samsung Catalyst Fund)’를 비롯해 ‘엔비디아 그래픽처리칩(GPU) 벤처스’ 등으로 구성된 컨소시엄으로부터 7500만 달러(약 868억 원) 규모의 투자를 유치해 기술력을 인정받았다.

또 올 2월에는 네이버가 자회사인 라인과 함께 사운드하운드에 투자를 했다. 금액에 대해서는 비공개이지만 수십억원에 달할 것이라는 게 업계의 관측이다. 네이버는 이번 투자를 통해 미국 실리콘밸리의 기술 트렌드, 시장에 대해 보다 이해도를 높일 수 있을 것으로 기대하고 있다. 네이버는 ‘엔보이스(nVoice)’ 등의 자체 음성기술을 개발해왔고, 지난 8월 자체 AI 스피커 ‘웨이브'를 출시했다.

◆ ‘사운드하운드’ 넌 누구니?...음성인식 정확도 95%

사운드하운드는 지난 2005년 설립된 음성 인식 및 자연어 처리 엔진 개발 전문 기업으로, 화자의 음성을 인식해 텍스트로 변환하는 자동대화인식(Automatic Speech Recognition), 자연어 처리를 통해 화자가 말한 내용 및 의도를 이해하는 자연어이해(Natural Language Understanding) 기술 등 음성인식 분야에서 10년 넘게 연구개발(R&D)한 기술 기업이다.

우선, 이 회사는 ‘허밍' 소리로 음악을 검색할 수 있는 인기 앱 ‘사운드하운드(SoundHound)’를 운영 중이다. 예를 들어 TV에 나오는 노래의 제목을 알고 싶다면, 앱을 스피커에 갖다 대면 해당 노래의 제목을 알려준다. 가사 혹은 음만 기억날 경우, 앱을 켜고 흥얼거리기만 해도 노래 제목과 영상, 음악 링크를 검색해 준다.

사운드하운드는 날씨, 호텔, 여행 등 150개 도메인 서비스를 제공하는 음성인식 AI비서 서비스 하운드와 자동차나 사물인터넷(IoT) 단말에 내장형 보이스 어시스턴트를 제공하는 개발자 플랫폼 ‘하운디파이(Houndify)를 서비스하고 있다. 하운디파이는 음성인식 비서 시장을 주도하는 구글, 애플, 아마존에 도전장을 낸 서비스라는 평가를 받고 있다.

시장조사업체 스트라베이스에 따르면, 작년 음성인식 서비스 업체 중 사운드하운드의 음성인식 및 명령 수행의 정확도는 95%에 달했다. 이는 애플의 시리(정확도 95%)와 동등하며, 구글의 구글나우(92%)는 앞서는 수치다.

전자업계 관계자는 “삼성전자(005930)가 사운드하운드의 기술력을 독자적으로 사용하기 위해 당초 사운드하운드의 인수를 추진한 것으로 알고 있다"며 “다만 기존 주주들의 반대와 지분확보의 어려움에 따라 안정적으로 솔루션만 공급받을 수 있도록 지분투자로 방향을 바꿨다"고 귀띔했다.

◆ “클릭⟶터치⟶음성의 시대"...車시장 접목 가능

사운드하운드가 급부상한 배경에는 컴퓨터 사용자인터페이스(UI)의 변화가 있다. 1960년대 컴퓨터의 데이터 입출력 인터페이스는 천공카드였다. 이후 사용자가 키보드를 이용해 글자를 직접 쳤고, 1983년 애플이 마우스를 선보인 이후에는 ‘클릭의 시대'가 왔다. 마이크로소프트의 윈도95가 등장한 이후에는 ‘그래픽유저인터페이스(GUI)’가 대세가 됐다. 휴대폰과 PDA 등 모바일 시장의 인터페이스도 비슷했다.

2007년 애플이 아이폰을 출시하면서 본격적인 터치의 시대가 등장했다. 화면을 터치해 글자를 입력하는 게 대세가 된 것이다. 전문가들은 터치를 뛰어넘은 새 인터페이스로 말로 명령을 내리는 ‘보이스(목소리)’가 될 것으로 내다본다.

케이반 모하저 사운드하운드 최고경영자(CEO)는 2015년 테크크런치와 인터뷰에서 "개발자들이 어떤 앱에서도 음성 기반 인터페이스를 적용할 수 있도록 할 것"이라며 “스마트폰의 작동방식인 '터치 앤 탭(touch and tap)'에서 음성 인터페이스로 대체하게 될 것"이라고 말한 바 있다.

전자업계 관계자는 “삼성전자, 네이버, KT의 공통점은 모두 인공지능 플랫폼을 비롯해 AI 스피커를 출시하거나 개발 중인 상태"라며 “음악은 AI 서비스와 제품을 돋보이게 하고 사용성과 만족감을 늘릴 수 있는 킬러 콘텐츠인 만큼 높은 음성인식률과 명령어처리, 음악 데이터 등 여러가지 개발요소를 감안했을 때 직접 개발보다는 사운드하운드 투자를 통한 안정적으로 솔루션을 확보하는 것이 유리하다고 판단했을 것”이라고 말했다.

삼성전자, 네이버, KT 모두 자동차 전장, 인포테인먼트 사업을 추진하는 만큼 차량에 음성 인터페이스를 접목할 가능성이 적지 않다. 운전 중 인포테인먼트 기기를 손으로 조작하는 것이 교통 사고의 원인이 되는 만큼 이를 해결하는 방법으로 음성 인터페이스가 주목받고 있다는 것이다.

KT경제경영연구소에 따르면 2012년 37%에 불과했던 자동차 음성인식 기능 탑재율이 올해 절반 이상을 넘어설 것으로 예측되고 있다. 자동차 음성인식 시장 규모는 2011년 81억 달러에서 2019년 179억 달러로 2배 이상의 성장이 예상된다.