지난 2012년 딥러닝(Deep Learning) 기술의 폭발적인 성장과 함께 이미지 인식과 합성 등을 중심으로 신기술이 잇달아 등장해온 인공지능(AI)이 이제 음성 기술 분야에서 괄목할만한 성과를 내고 있다. 구글을 비롯해 아마존, 마이크로소프트(MS) 등이 지난 수년간 음성 AI 기술에 집중적으로 투자해왔고 이제는 단 1분 분량의 음성 데이터를 학습하면 구분이 어려울 정도의 목소리를 재현해내는 수준에 도달했다.

26일(현지 시각) 월스트리트저널(WSJ)은 세계 최대의 정보기술(IT) 기업 중 하나인 아마존이 자사의 음성 AI 비서인 알렉사를 내세워 완전히 새로운 음성인식 및 합성 기술을 개발하고 있다고 전했다. 이 기술을 기반으로 아마존은 가상인물뿐만 아니라 이미 생존해있지 않은 사람의 음성까지 되살려 새로운 디지털 콘텐츠를 만들어내기 위해 다른 협력업체들과 협력하고 있다.

아마존의 인공지능(AI) 비서 서비스 ‘알렉사’.

수년전과 비교하면 AI가 학습해야하는 데이터의 용량이 비약적으로 줄어들고 있다는 것이 특징적이다. 이번 아마존의 기술은 단 1분 수준의 발화 분량만으로도 나머지를 AI를 통해 채울 수 있는 기술을 보유하고 있다. 이미지 합성 및 생성분야에서 적대적신경생성망(GAN) 기술이 등장하면서 파편적 데이터만으로도 AI가 새로운 결과물을 만들어내는 것처럼 음성 AI 분야 역시 비슷한 발전 방향을 나타내고 있는 셈이다.

아마존은 지난 22일(현지 시각) 미국 라스베이거스에서 열린 ‘아마존 리마스(re:MARS)’에서 이러한 새로운 기능을 발표했다. 이번 기술은 1분 미만의 음성 샘플만 있으면 특정 인물의 목소리를 그대로 재현할 수 있는 기술이다. 이를 활용해 돌아가신 조부모나 부모등의 목소리를 알렉사 음성으로 사용이 가능한 것이다.

가령 손주들이 돌아가신 할머니의 목소리로 ‘오즈의 마법사’ 동화책을 읽어달라고 요청하면 알렉사가 할머니 목소리로 책을 읽어주는 방식이다. 이에 대해 아마존의 로히트 프라사드 수석부사장은 “알렉사에 공감이라는 인간적인 모습을 덧붙였다”고 설명하기도 했다. 그러면서 더 짧은 분량의 음성 데이터를 기반으로 고품질의 목소리를 재현해내는 방안을 개발할 것이라고 덧붙였다.

구글은 목소리의 유사성뿐만 아니라 기계와의 능동적 대화 구현을 위해 힘을 주고 있다. 최근 ‘구글 I/O 개발자 콘퍼런스 2022′에서 공개된 기술을 살펴보면 ‘오케이 구글’과 같은 호출어 없이 이용자 시선을 인식해 구글 어시스턴트를 구동시키는 기술 ‘룩앤톡(Look and Talk)’을 비롯해 또 이용자의 목소리를 등록하면 기기가 사람의 목소리를 생체정보로 인식해 대답하는 장면을 볼 수 있다.

이용자 언어를 섬세하게 인식하는 기능도 향상됐다. 사람마다 다른 말투나 습관, 맥락에 맞는 해석을 AI가 판단해 그에 맞는 명령을 수행하는 방향으로 기술이 진화하고 있는 것이다. 예를 들어 “불을 켜라” 혹은 “불!”이라는 명령을 들은 구글 어시스턴트는 맥락을 분석해 거실에 불을 켜는 동작을 실행한다. 또 대화에서 발생하는 ‘머뭇거림’을 인식해 사용자의 의도를 담은 명령어를 기다리는 ‘스피치 모드(Speech modes)’도 도입된다. 명령에 앞서 ‘어... 음...’ 등과 같이 말을 다듬는 뉘앙스도 파악할 수 있다.

국내에서 이미 수년전부터 주목 받아온 네오사피엔스는 텍스트를 입력하면 성우의 음성으로 변환해주는’ 플랫폼 ‘타입캐스트’로 널리 알려진 기업으로, 이미 많은 유튜버와 크리레이터들이 사용하는 유틸이기도 하다. 네오사피엔스에 따르면 올해 들어 이 회사가 제공하는 가상연기자 캐릭터가 170개 수준으로 3배 가까이 늘었으며 최근에는 음성 연기자뿐만 아니라 비디오 캐릭터도 등장했다.

한편 일각에서는 이같은 음성 AI의 진화가 윤리적 문제를 일으킬뿐 아니라 범죄에 악용될 가능성을 우려하고 있다. 국내 IT업계 관계자는 “딥러닝 등장 이후 영상 분야에서 딥페이크와 같은 불법 이미지 합성이 세계적으로 논란을 일으켜왔으며 앞으로도 이를 분간해내기 힘들어질 것”이라며 “음성 역시 발전 속도를 감안하면 악용될 가능성에 대해 우려할 수 밖에 없다”고 진단했다.