IT

소녀시대·엑소 목소리 AI 비서는 꿈이 아니라 현실...고인의 발음도 고스란히 되살려

  • 노자운 기자

  • 김범수 기자

  • 입력 : 2017.01.12 15:14 | 수정 : 2017.01.12 16:22

    “지난 20년도 그리 길지 않은 세월인 것 같아요. 할 수만 있다면 잡아두고 싶어요, 지금 이 순간을. 근데 뭐 저는 어머니 아버지 돌아가셨을때 옆에서 지켜봐드리지 못한 거, 우리 딸내미가 시집갈 때 손잡고 결혼식장에 들어가주지 못하는 거...(중략) 그 순간들에 저는 없더군요. 이제 돌아가봐야할 것 같아요. 행복하십시오.”

    지난달 29일, 세상을 떠난 지 21년만에 관객 앞에 선 ‘가객(歌客)’의 모습이 전파를 탔다. KBS가 교양 프로그램 ‘감성과학 프로젝트 - 환생’을 통해 고(故) 김광석의 생전 모습을 재현해낸 것이다. 한 시간의 공연이 이어지는 내내 방청객들은 어안이 벙벙한 듯했다. 하염 없이 눈물만 쏟는 사람들도 있었다.

    지난달 29일 방영된 KBS ‘감성과학 프로젝트 - 환생’의 한 장면. 음성 합성과 홀로그램 기술을 통해 고(故) 김광석의 생전 모습을 재현해냈다. /KBS 공식 홈페이지 영상 캡처
    지난달 29일 방영된 KBS ‘감성과학 프로젝트 - 환생’의 한 장면. 음성 합성과 홀로그램 기술을 통해 고(故) 김광석의 생전 모습을 재현해냈다. /KBS 공식 홈페이지 영상 캡처
    관객 및 시청자들이 큰 감동을 받을 수 있었던 데는 김광석의 생생한 목소리가 큰 몫을 했다. 컴퓨터 그래픽과 홀로그램이 재현해낸 외모도 실감났지만, 고인의 생전 목소리와 발음·억양 등을 그대로 살려낸 음성 합성 기술이 없었다면 이 프로젝트는 ‘반쪽짜리’가 됐을 것이다.

    4차 산업혁명의 물결 속에서 음성 합성 기술의 중요성은 나날이 높아지고 있다. 음성 합성이란 컴퓨터를 이용해 사람의 말소리를 기계적으로 합성하는 것을 뜻한다. 아마존 ‘에코’나 SK텔레콤(017670)‘누구’ 같은 인공지능 스피커, 네이버(NAVER(035420))가 만든 통역 앱 ‘파파고’에도 음성 합성 기술이 쓰였다. 사용자들은 사람의 목소리를 실감나게 재현하는 음성 합성 기술 덕분에 인공지능을 기계가 아닌 사람으로 느낄 때가 있다고 입을 모은다. 스타 군단을 보유한 SM엔터테인먼트는 소속 연예인들의 음성에 기반한 인공지능(AI) 비서 서비스를 만들겠다는 야심찬 계획을 최근 발표해 화제가 되기도 했다.

    ◆ 음성 합성의 원리...6만4000개 조합으로 한국어 음성 완벽 재현

    음성 합성의 기본적인 원리는 문자를 음성으로 변환하는 문자 음성 자동 변환(Text to Speech·TTS)이다. 사람의 목소리를 녹음해 문자로 변환하는 것이 음성 인식이라면, 음성 합성은 반대로 문자를 음성으로 바꾸는 것이다.

    성원용 서울대 전기·정보공학부 교수에 따르면, 가장 대표적인 음성 합성 방식으로는 단어나 문장처럼 상대적으로 큰 단위로 녹음돼있는 음성 파형(波形)을 그대로 가져다 쓰는 편집 방식과 음성을 음소 단위로 분리해 저장해뒀다가 필요에 따라 이어 붙이는 방식이 있다.

    예를 들어 ‘조선비즈’라는 단어를 음성 합성한다고 가정해보자. 첫 번째 방식을 사용할 경우, 사람이 발음한 조선비즈라는 음성 파형을 통째로 저장해뒀다가 그대로 재생하면 된다. 음색이 깨끗하고 자연스러울 수밖에 없다.

    이 방식의 단점은 저장 용량을 많이 필요로 한다는 것이다. 컴퓨터 메모리 용량이 턱없이 부족했던 시절에는 조선비즈라는 음성 파형을 한꺼번에 저장하는 것이 쉽지 않았다. 이 외에도 지금까지 한 번도 발화된 적이 없는 새로운 용어를 합성해낼 수 없다는 단점이 있다.

    음소를 이어 붙이는 두번째 방식은 상대적으로 적은 메모리 용량을 필요로 한다. 조선비즈라는 단어를 ‘ㅈ’, ‘ㅗ’, ‘ㅅ’, ‘ㅓ’, ‘ㄴ’, ‘ㅂ’, ‘ㅣ’, ‘ㅈ’, ‘ㅡ’ 등 9개 음소로 분리해 저장한다.

    성 교수는 이 경우 음소열 단위로 음성 합성이 이뤄진다고 설명했다. 음소열이란 말 그대로 음소의 배열을 말하는데, 단일 음소를 모노폰(monophone)이라고 부르며 2음소열을 다이폰(diphone), 3음소열을 트라이폰(triphone)이라고 부른다.

    같은 음소 ‘ㅅ’이라도 앞뒤에 어떤 음소가 붙느냐에 따라 다른 트라이폰(3음소열)이 된다. 음소 ‘ㅅ’은 다른 트라이폰 안에서 각기 다른 음향적 특징을 지닌다. /그래픽=박길우 디자이너
    같은 음소 ‘ㅅ’이라도 앞뒤에 어떤 음소가 붙느냐에 따라 다른 트라이폰(3음소열)이 된다. 음소 ‘ㅅ’은 다른 트라이폰 안에서 각기 다른 음향적 특징을 지닌다. /그래픽=박길우 디자이너
    조선비즈라는 단어 속 음소 ‘ㅅ’을 예로 들어보자. ‘ㅅ’을 단일 음소로 본다면, 이 음소는 ‘조심해’라는 단어 속 음소 ‘ㅅ’과 동일하다. 여기서 ‘ㅅ’을 단일 음소가 아닌 트라이폰으로 본다면 어떨까. ‘ㅅ’ 앞의 음소 ‘ㅗ’와 바로 뒤 음소 ‘ㅓ’까지 3개 음소가 하나의 쌍(ㅗ·ㅅ·ㅓ)을 이루기 때문에 ‘조심해’라는 단어 속 음소 ‘ㅅ’의 트라이폰(ㅗ·ㅅ·ㅣ)과는 다른 음소열이 되는 것이다. 음소 ‘ㅅ’은 트라이폰 ‘ㅗ·ㅅ·ㅓ’과 트라이폰 ‘ㅗ·ㅅ·ㅣ’ 속에서 각기 다른 음향적 특징을 갖게 된다.

    성 교수는 “한국어 음소를 모두 고려할 때 트라이폰은 총 6만4000개 조합이 나온다”며 “다만 음향적 특징이 거의 비슷해 구별할 필요가 없는 음소열을 모두 제외한다면, 수천개 트라이폰이 남는다”고 말했다.

    음소를 조합하는 방식은 문장이나 단어 단위의 음성 파형을 그대로 가져다 쓰는 방식과 비교해 부자연스러울 수밖에 없다는 한계를 지닌다.

    ◆ 수학 계산으로 음높이 조정하고 딥러닝으로 학습하면 더욱 자연스러워

    음성 합성은 지난 수십년 간 존재해온 기술이다. 그렇다면 오늘날 컴퓨터가 과거와 다르게 자연스러운 기계음을 낼 수 있게 된 이유는 무엇일까.

    단어 단위로 음성 파형을 그대로 가져다 합성하는 경우는 이미 자연스러운 소리를 내기 때문에 별 문제가 안 된다. 문제는 음소 단위를 이어 붙이는 경우다.

    이상호 SK플래닛 최고기술책임자(CTO)는 먼저 음성 정보가 음의 분절 정보(segmental information)와 비분절 정보(nonsegmental information)로 나뉜다는 것을 알아야 한다고 말했다. 음소가 다른 음소와 만나 어떤 발음으로 변환되는지 등이 음의 분절 정보에 해당된다면, 끊어 읽기나 억양, 길이, 강세 등 발화하는 사람의 감정을 표현할 수 있는 운율 정보는 비분절 정보에 해당된다. 자연스러운 어감을 위해서는 비분절 정보를 알맞게 조절하는 것이 관건이다.

    예를 들어 ‘나는 학교에 간다’는 문장을 발음할 때 단어 사이를 끊지 않고 모두 붙여 읽는다든가 높낮이와 강세를 모두 일정하게 말한다면 어떨까. 사람의 말보다는 로봇이 내는 기계음처럼 부자연스러울 것이다.

    운율 조절은 컴퓨터의 몫이다. 이 CTO는 “예를 들어 음성인식 스피커가 ‘생일 축하 노래를 재생할까요?’라는 의문문을 합성하기 위해 400헤르츠(Hz)의 ‘요?’ 음성이 필요하다면, 이미 보유하고 있는 300Hz의 ‘요?’ 음성의 높이를 수학적으로 조절해 사용하면 된다”고 말했다. 말의 높낮이는 물론 속도와 길이도 수학적으로 조절해 음성 신호를 바꿀 수 있다.

    운율 정보는 특정인의 목소리를 재현할 때 특히 중요하다. 홀로그램으로 ‘부활’한 김광석의 육성을 잘 들어보면, ‘행복하십시오’라는 말을 또박또박 발음하지 않고 ‘행보가십쇼’로 발음한다. ‘하’의 마찰음 ‘ㅎ’ 앞에 붙은 종성파열음 ‘ㄱ’을 거센소리 ‘ㅋ’으로 발음하지 않는 고인의 생전 발음 습관을 그대로 반영한 것이다. 끝을 살짝 올린다든지 여러개 어절을 뭉뚱그려 발화하도록 한 것도 운율 정보를 중요시한 결과물이다.

    특정인의 목소리를 토대로 음성을 합성할 때는 운율을 예측하는 기술도 필요하다. 이 CTO는 “문장의 의미와 구문 구조 등에 따라 특정인의 음성 높낮이와 속도 등이 어떻게 변화하는지 매칭해뒀다가, 이 정보를 토대로 운율 예측기를 만들 수 있다”고 말했다. 해당 인물의 음성을 100분의1초 단위로 쪼갠 뒤 이 부분의 길이를 늘릴지, 높낮이를 몇 Hz로 변형해야 할 지 미리 예측하며 합성할 수 있다는 것이다.

    딥러닝과 컴퓨터의 계산 능력 역시 역시 기계음을 더 자연스럽게 만들어주는 또다른 ‘공신’이다.

    성 교수는 “컴퓨터가 사람의 목소리를 더 많이 듣는다면, 같은 음소열도 어떤 문맥에서 어떤 높낮이·강세·길이로 발음해야 하는지 학습할 수 있다”고 말했다. 즉, 음성 합성을 자연스럽게 하는 데도 충분한 양의 데이터가 필요하다는 얘기다.

    이 CTO는 “지난 1970년대에 출시됐던 미국 음성 합성기 ‘마이톡(MI talk)’은 컴퓨터의 성능이 떨어져 부자연스러운 기계음을 냈지만, 지금의 컴퓨터는 그 때보다 훨씬 더 복잡한 계산을 할 수 있다”며 “컴퓨터 성능이 지금보다 더 발달하고 학습 데이터의 양이 많아져 기계음이 사람의 목소리를 완전히 따라잡게 된다면, 영화 ‘그녀(Her)’와 같이 인간이 기계에 감정을 느끼는 시대도 반드시 올 것”이라고 말했다.

    ◆ SKT ‘누구’의 감성 운율 모델 주목...비밀에 가려진 SM엔터 ‘위드’의 음성합성법

    현재 국내 인공지능 스피커 시장을 선점한 것은 SK텔레콤의 ‘누구’다. ‘아리아·레베카·크리스탈·팅커벨’ 중 한가지 명령어를 선택해 부를 수 있다. 사람에 가까운 자연스러운 목소리 덕에 인기를 끌고 있다.

    누구의 목소리는 테스트를 거쳐 선발된 성우가 녹음했다. SK텔레콤은 여러 명의 성우를 대상으로 음성 녹음 테스트를 한 뒤 일반인들을 대상으로 설문 조사를 해 성우 한 명을 선발했다.

    SK텔레콤은 성우의 발화를 녹음한 뒤, 누구가 머신러닝으로 자연스러운 운율 모델을 학습하게 했다. 이 과정에서 ‘정보 전달’에 적합한 운율과 ‘대화형 서비스’에 적합한 운율을 따로 나눠 학습시켰다.

    김종진 SK텔레콤 미래기술연구원 팀장은 “단순히 정보를 전달할 때는 과도한 감정 개입 없이 답변 음성을 생성해야 하지만, 대화형 서비스는 문맥에 따라 다른 톤을 적용해야 한다”며 “아무리 많은 데이터가 있더라도 해당 데이터에 모델링하고자 하는 감성이나 운율이 없거나 부족하다면, 사용자에게 적절한 답변을 할 수 없다”고 말했다.

    SK텔레콤 미래기술연구원은 누구의 목소리에 다양한 감정을 담기 위해 ‘감성 운율 모델(Expressive prosody modeling)’ 개발을 지속하고 있다.

    최근 주목받고 있는 대표적인 인공지능 스피커들. /조선일보DB
    최근 주목받고 있는 대표적인 인공지능 스피커들. /조선일보DB
    SM엔터테인먼트 역시 SKC&C와 손잡고 소속 연예인의 목소리를 내는 인공지능 스피커 ‘위드(Wyth)’를 만들었다. 아직 영어 서비스만 가능하며, 올해 상반기 중국어도 탑재하겠다는 계획이다.

    SM엔터테인먼트와 SK측은 위드에 들어간 음성 합성 기술에 대해 공개할 수 없다는 입장이다. 다만 IT 업계에서는 위드의 개발 시나리오를 크게 세 가지로 추측한다.

    첫번째 방식은 해당 연예인이 스튜디오에서 4~5시간 동안 발화한 뒤, 녹음 파일에서 문장·단어 단위의 음성 파형이나 음소를 따서 이어 붙여 합성하는 것이다. 이 방식은 상대적으로 자연스러운 결과물을 얻을 수 있다는 장점을 갖지만, 발화 시간이 2시간만 넘어가도 목이 쉬어서 더이상 녹음할 수 없다는 한계가 있어 현실적으로 매우 어렵다.

    두번째 방식은 연예인이 과거 출연했던 TV 프로그램이나 각종 음성 파일에서 목소리를 따오는 것이다. 첫번째 방법보다는 현실성이 있다.

    마지막 시나리오는 음성 변조다. 연예인 목소리의 높낮이 등 음성 정보를 기존 음성 합성기에 맵핑(Mapping·본따 구현함)하는 방식이다.

    • 기사보내기
    • facebook
    • twitter
    • google
    • e-mail
  • Copyrights © ChosunBiz.com