"헤이 알렉사, 발라드 틀어줘"
"기분이 안 좋아 보이네요. 기분 전환 겸 신나는 댄스곡이나 힙합은 어떠세요?"
음성인식 인공지능(AI) 스피커가 이제는 음성뿐 아니라 '감정'까지 읽을 날이 머지않았다. AI 스피커가 사용자의 음성에 실린 감정을 파악해 음악부터 책, 영화나 해야 할 활동까지 추천해준다면 어떨까.
이스라엘 스타트업 '비욘드버벌(Beyond Verbal)'은 지난 21일 아마존 알렉사(Alexa), 애플 시리(Siri), 구글 어시스턴트(Google Assistant)가 탑재된 각 AI 스피커에 사람의 감정을 읽을 수 있는 개발자용 응용 프로그래밍 인터페이스(API)를 내놨다. 아직 상용화 단계는 아니지만, 상용화되면 AI 스피커뿐만 아니라 의료계와 콜센터 등 서비스 업계에 유용하게 쓰일 전망이다.
지난 2012년 이스라엘 텔아비브 기반으로 설립된 비욘드버벌은 40개 언어 250만개 이상의 '감정 태그가 붙은 음성'을 축적했다. 이 회사는 축적된 감정 분석 연구 결과를 바탕으로 미국 메이오 클리닉(Mayo Clinic), 시카고대학교, 스크립스 연구소(Scripps), 이스라엘 하다사 메디컬센터(Hadassah Medical Center) 등과 협력하고 있다.
비욘드버벌의 기술은 말의 내용과 맥락이 아닌 사람의 목소리 억양·어조 등을 분석해 불안, 흥분, 분노 등 감정을 짚어낸다. 이 회사는 지난 3월 목소리만으로 사람 몸 상태를 파악하는 서비스 '무디즈(Moodies)'를 개발하기도 했다.
비욘드버벌의 AI 스피커 감정인식 API는 최근 경쟁이 과열된 AI 스피커 시장의 새 차별화 지점이 될 것으로 보인다. 아마존 에코, 구글 홈에 애플도 지난 WWDC2017에서 홈팟을 공개하고 AI 스피커 시장에 본격적으로 뛰어들었다.
시장조사업체 이마케터에 따르면 올해 미국에서 AI 스피커 이용자 수는 지난해보다 2배 이상 증가한 3560만명에 이를 전망이다. 지금까지 아마존 에코가 미국 AI 스피커 시장의 70%를 차지하며 선두를 달리고 있다.
비욘드버벌의 기능이 아마존 에코를 비롯해 여러 AI 스피커에 탑재된다면, '꿈의 AI 스피커'가 가능할 수도 있다. 현재 AI 스피커는 인간의 자연어를 인식할 수는 있지만, 하나의 '명령어'로 인식하는 것일 뿐 감정을 기반한 의사소통은 불가능하다. 비욘드버벌의 기술이 적용된다면 AI 스피커가 수행하는 사물인터넷(IoT) 기기 연동, 음악을 들려주거나 책 읽어주기, 날씨나 쇼핑 등 기능도 사용자의 감정을 읽음으로써 그 활용 방법이 무궁무진하다는 것이다. 가령 사용자 기분에 맞춰 콘텐츠를 추천해줄 수도 있다.
유발 모어(Yuval Mor) 비욘드버벌 최고경영자(CEO)는 "오늘날의 디지털 세계는 우리가 기술과 상호작용하는 방식을 빠르게 바꾸고 있다"고 말했다.
미국 정보기술(IT) 매체 벤처비트는 "아마존이 알렉사를 기반으로 서드파티 생태계를 구축하고 있으므로, 아마존 에코에 비욘드버벌의 기술이 적용돼 다양한 감정 인식 경험을 사용자에게 제공할 가능성도 높다"고 설명했다.
그러나 비욘드버벌 기술에도 아직 한계는 존재한다. 아직까지 비욘드버벌의 기술을 적용해 음성에서 감정을 읽어내려면 최소 13초 이상이 필요하다. 그러나 AI 스피커 사용자가 "오늘 날씨는 어때?" 등 주로 짧게 대화 명령을 내리는 것을 감안하면, 13초는 꽤 긴 시간이다. 비욘드버벌 측도 이 부분을 인지하고 있다. 비욘드버벌은 현재 음성 분석 시간을 단축하는 데 역량을 집중하고 있다.