TV조선 기상캐스터가 미세먼지로 뒤덮인 오늘 서울의 날씨를 설명하는 리포트 대본을 노트북에 입력한 뒤 영화배우 이병헌 아이콘을 클릭한다. 불과 2~3초만에 곧바로 이병헌 특유의 중후한 저음이 또박또박한 음성으로 날씨를 읽기 시작한다.

기존 네이버 등이 제공하는 '텍스트투스피치(TTS)' 서비스와는 사뭇 다르다. AI를 통해 생성되는 음성에서는 기계가 아닌 진짜 사람의 '표현'이 들린다. 띄어쓰기에 따라 호흡을 조절할뿐 아니라 특정인이 단어를 발음하는 습관도 배어있다. 가령 도널드 트럼프 대통령이 읽어주는 날씨는 한국어 억양을 구사하지 못하는 미국인의 어색한 발음마저도 담아낸다.

물론 AI가 흉내낸 유명인들의 목소리 생성 기술이 완벽하다고는 할 수 없지만, 주목할 점은 일체의 추가작업 없이 실시간으로 주어진 문장을 2~3초만에 발화자의 특성, 버릇, 말투를 반영해 AI가 생성해냈다는 점이다. 직원수 8명에 불과한 한국의 스타트업 '네오사피엔스'가 국내뿐만 아니라 국제적으로 주목받는 것도 바로 이 때문이다.

김태수 네오사피엔스 대표.

5일 서울 양재동에 위치한 네오사피엔스 본사에서 만난 김태수 네오사피엔스 대표는 올해 사업 목표를 묻는 질문에 대해 미소를 지으며 "최대한 많은 사람들을 속이는 것"이라고 답했다. AI 기반의 음성합성으로 생성된 목소리를 실제 사람 목소리로 착각할 정도로 정교하게 구축해 업계에 신선한 충격을 안기고 싶다는 의미였다.

네오사피엔스는 지난 2017년 11월에 설립한 AI 스타트업이다. 인공지능 기술을 기반으로 한 음성합성 서비스 개발에 열중하고 있다. 카이스트에서 바이오 및 뇌공학 박사 학위를 취득하고 LG전자와 퀄컴에서 일한 김태수 대표가 설립을 주도했다. 창업 멤버로 조준철 전 퀄컴 선임연구원, 이영근 전 AKA 인텔리전스 개발자 등이 함께했다.

구글, 아마존 등 해외의 대형 IT 기업들도 음성합성 기술에 공격적인 투자를 진행하고 있는 가운데 네오사피엔스가 이 기업들과 구분되는 강점은 빠른 AI 학습을 통한 음성합성 및 생성, AI의 감정 표현 등 기존에는 불가능했던 기술의 돌파구를 마련하고 있다는 점이다.

김 대표는 "AI가 사람의 음성을 학습하는데 있어서 필요한 발화량은 기업마다 보는 관점에 따라 다르며 어떤 기업은 4시간이 필요하다고 하고 최대 200여시간이 필요하다고 보는 기업도 있지만 1시간 정도의 발화량이면 완전히 목소리를 카피할 수 있다"며 "네오사피엔스가 중요하게 생각하는 건 실제 사람이 말한 것과 같은 감성 표현이 가능한가의 문제"라고 설명했다.

김 대표는 네오사피엔스의 음성합성 기술이 사람의 자연스러운 감정 표현을 하는 데 있어서는 구글, 아마존 등보다 앞서있다는 점을 강조하기도 했다. 김 대표는 "현재 네오사피엔스의 AI 음성합성은 연기, 감정이 들어가는 음성을 생성할 수 있으며 이는 구글처럼 일반 대화체로 텍스트를 낭독하는 것과는 다른 차원"이라고 강조했다.

김 대표는 오는 5월 영국에서 열리는 음성 및 신호처리 분야의 최대 학회 중 하나인 'ICASSP'에서 이같은 AI 음성의 감정 표현에 대한 논문을 발표할 예정이다. 김 대표는 "이 자리에서 구글의 음성합성 기술에서 한발 더 나아가 AI 음성의 강세 조절을 제어할 수 있는 기술을 소개할 예정"이라며 "사람처럼 더 미묘한 강세 표현이 가능해지는 것"이라고 설명했다.

이어 "그동안 AI가 이미지 분석을 통해 발전했다면 최근에는 음성합성 기술이 정말 빠르게 성장하고 있다"며 "올해의 경우 사람들이 AI가 만들어낸 음성을 훨씬 더 많이 듣게 될 것이고, 그 음성을 AI가 만들어냈다는 사실을 분간하지 못하는 경우가 많아질 것이라고 생각한다"고 자신했다.