야구팬 이모씨는 문득 2009년 WBC에서 김태균 선수가 일본 투수 마쓰자카의 공을 통타, 홈런을 만들어내던 장면을 다시 보고 싶어졌다. 하지만 이씨가 가진 동영상은 무려 3시간짜리 전(全) 경기 풀버전. 원하는 장면을 찾으려면 스크롤 기능을 사용해 일일이 장면 하나하나를 뒤져야 한다. 그냥 '김태균 홈런'이라고 말하면 컴퓨터가 알아서 해당 장면을 찾아줄 수는 없을까.
머지않아 이런 식의 장면 검색이 가능해진다. 동영상 장면 속 야구 캐스터의 수많은 음성에서 "김태균" "홈런"에 해당하는 부분만을 검색, 컴퓨터가 해당 장면을 찾는 것이 가능해지기 때문이다.
스마트폰의 불편한 자판 입력을 대신하는 도구인 음성 검색이 진화하고 있다. 동영상 검색, 동시통역으로까지 활동 범위가 넓어진 것. 구글과 네이버를 낳았던 문서 검색에 이어 음성 검색은 인터넷 산업에서 황금알을 낳는 거위로 새롭게 떠오르고 있다.
◆음소에 숨어 있는 주파수
스마트폰으로 인터넷 검색을 하려면 불편하다. 스마트폰의 자판은 크기가 작아서 입력이 쉽지 않다. 이럴 경우 스마트폰의 음성 검색 기술을 활용하면 편리하다. 그렇다면 스마트폰이나 컴퓨터는 어떻게 사람의 음성을 인식하는 것일까?
'강'이라는 단어를 컴퓨터에 들려주면 컴퓨터는 강의 음소인 초성 'ㄱ', 중성(모음) 'ㅏ', 종성 'ㅇ'을 분해한다. 초성, 모음, 종성은 각각이 발성되는 시간적 순서가 다르다. 일상적인 대화에서는 인식하지 못하지만, 강이라는 단어를 발음할 때, 우리의 성대와 입 모양은 초성, 모음, 종성 순서로 소리를 만든다. 일반적으로 초성, 모음, 종성의 발음되는 시간 간격은 수백에서 수천분의 1초이다.
컴퓨터가 가장 먼저 전달받은 소리를 초성으로 인식하면, 해당 초성이 무엇인지를 구분하는 작업에 들어간다. 비결은 주파수에 있다. 음소별로 주파수가 다른 것이다. 비유한다면 'ㄱ'은 주파수가 3㎑(킬로헤르츠), 'ㅍ'은 6㎑이다. 컴퓨터는 이 주파수로 소리가 난 단어의 초성이 무엇인지를 알아내는 것. 이런 과정을 거쳐 컴퓨터가 음성을 글자로 바꾼다.
시끄러운 곳에서 음성 검색을 하거나 목소리가 작으면 음성 검색이 부정확해진다. 이럴 때 '단어유추 기술'이 사용된다. 단어유추 기술은 일상에서 사용하는 단어들의 조합을 미리 컴퓨터가 내장하고 있다가 전달받은 단어가 불분명할 때 사용한다. 사용자가 '이대호 홈런'이라는 5음절로 된 음성 검색을 소음이 많은 곳에서 시도했다. 컴퓨터가 분석해 보니 첫 3음절인 이대호는 알아들었는데 나머지 2음절은 홈런인지 도루인지 불분명했다. 그러면 단어유추 기술은 일상생활에서 사용 빈도수가 높은 이대호 홈런을 선택해 검색한다.
◆음성 검색으로 영화 속 원하는 장면을 찾아낸다
구글이나 네이버 같은 기존의 인터넷 검색 기업들은 문자·텍스트 검색에 의존해서 막대한 수익을 올렸다. 이들 기업은 보고 싶은 장면만 골라 주는 동영상 검색이 또 다른 시장을 창출할 것으로 믿었다. 하지만 화면을 데이터로 구축하는 데 난관에 봉착하면서 동영상 검색 개발도 난항을 겪고 있다.
음성 검색 기술은 동영상 검색 개발에 활로를 뚫어줄 것으로 보인다. 컴퓨터가 영화의 배우들이 말하는 대사를 음성 검색 기술을 사용해 글자로 전환해 일종의 대본을 만든다. 해당 장면을 보고 싶으면 사용자는 배우의 대사에 나오는 몇 단어로 컴퓨터에서 검색한다. 컴퓨터는 음성 검색 기술이 만든 대본에서 검색 단어가 어떤 대사에 나왔는지를 찾는다. 최종적으로 해당 대사가 나온 장면을 컴퓨터가 골라 사용자에게 보여 준다.
음성 검색 기술은 동시통역으로까지 발전할 수 있다. 서울에 있는 무역상사 직원이 뉴욕에 있는 미국인 바이어에게 한국어로 말하면 음성 검색 기술이 해당 대화를 인식하고 부합하는 영어로 더빙해 바이어에게 들려주는 것이다. ETRI 전형배 선임연구원은 "현재 음성 검색은 사용자가 또박또박 발음할 때 정확도가 높다"며 "구어체로 대화하듯이 말해도 음성 검색이 제대로 이뤄지려면 구어체에 대한 언어 유추 기술이 보다 발전해야 한다"고 말했다.