누가 내 목소리 잘 알아듣지?…음성인식 기술 경쟁

조선비즈
  • 설성인 기자
    입력 2012.08.09 14:04

    음성인식 기술 경쟁이 치열해지고 있다. 사진은 LG전자의 'Q 보이스'/LG전자 제공
    휴대폰, TV, 냉장고, 자동차, 내비게이션 등에 음성인식 기능이 확산되면서 글로벌 IT업체들의 기술 경쟁도 치열해지고 있다.

    삼성전자(005930)‘S 보이스’, LG전자(066570)‘Q 보이스’, 애플 ‘시리’에 이어 최근에는 NHN(035420)이 자체 개발한 음성인식 기술 ‘링크’를 선보였다. 구글 역시 올 6월 열린 개발자 콘퍼런스에서 5억건의 인물·지역·사물 정보를 담고 있는 ‘보이스 서치’를 공개했다.

    2000년대 중반까지만 해도 음성인식 기능은 인식률이 낮아 일부 제품에 한정적으로 적용됐다. 하지만 사람과 자연스러운 대화가 가능한 인공지능 기능과 함께 네트워크 기술이 발전하면서 보급에 속도를 내고 있다. 네트워크 기술이 막대한 양의 음성 데이터를 저장하고 처리할 수 있게 되면서 정확도가 높아진 것이다.

    ◆ 시리發 음성인식 태풍 IT업계 강타

    애플은 지난해 아이폰4S와 함께 인공지능 음성인식 서비스 ‘시리’를 공개했다. 클라우드 서버를 이용, 사용자에게 적절한 정보를 찾아주고 원하는 기능을 실행해준다. 애플은 올 6월 열린 세계개발자콘퍼런스(WWDC)에서 iOS6을 공개하면서 아이폰과 뉴아이패드에 시리를 적용했다.

    한국어를 포함해 15개국 언어를 지원하는데다 BMW, GM, 아우디 등 자동차 브랜드도 시리 기능을 채택하기로 했다. 시리의 강점은 데이터 정보 전달력이 뛰어나며 미국 최대 지역 뷰 사이트 ‘엘프’(Yelp) 등 다양한 서비스와 제휴, 영화·식당·스포츠 등의 정보를 음성으로 쉽게 검색하고 예약까지 할 수 있다는 것이다.

    삼성전자(005930)역시 올 5월 출시한 갤럭시S 3에 S 보이스라는 음성인식 기능을 집어넣었다. IT컨설팅업체 로아컨설팅은 S 보이스에 대해 “음성 데이터베이스가 부족해 인식률이 조금 떨어진다”며 “하드웨어를 제어하는 기능에서는 시리와 비교해 뛰어나다는 평가를 받고 있다”고 했다.

    S보이스는 통화, 알람, 사진촬영 등의 기능을 음성으로 제어할 수 있으며, 음악감상 중에도 재생이나 볼륨을 사람의 목소리로 조절할 수 있다.

    LG전자(066570)는 지능형 음성인식 솔루션 ‘Q 보이스’에 자연어 처리와 음성 합성 기반 기술을 집어넣었다. 1997년 음성인식 기술을 휴대폰에 처음 전용한 이래 스마트 냉장고, 스마트TV, 로봇청소기로 적용대상을 확장했다.

    ‘Q 보이스’는 스마트폰 옵티머스 뷰에 이어 옵티머스 LTE 2에서도 제공된다. 회사측은 앞으로 일정도 알려주고 약속장소 예약까지 실행해주는 지능형 비서로 발전시킨다는 계획이다.

    LG전자 미래IT융합연구소장 손진호 상무는 “차별화된 사용자경험(UX)을 통해 ‘Q 보이스’가 시장에서 호응 받을 것으로 기대한다”며 “20년 이상 축적한 언어 처리 기술을 바탕으로 세계 스마트폰 시장 공략을 더욱 강화 할 것”이라고 말했다.

    NHN은 글로벌회화 앱에 음성인식 기술 '링크'를 적용했다./NHN 제공
    NHN(035420)도 최근 글로벌회화 애플리케이션(앱)에 음성인식 기술 ‘링크’를 적용했다. 간단한 음성입력으로 13개 외국어의 표현을 찾을 수 있다. NHN은 올 하반기에 링크를 적용한 비서 앱도 출시할 계획이라고 밝혔다.

    ◆ 올해만 5조원 시장…새로운 사업모델도 생겨

    삼성경제연구소 자료에 따르면 세계 음성인식 시장 규모는 2005년 11억달러(약 1조2000억원)에서 올해 45억달러(약 5조원)로 성장했다. 내년에도 54억달러(약 6조원)를 형성하면서 폭발적인 성장세를 이어갈 것으로 전망된다.

    특히, 이동중에 많이 사용하는 스마트폰·태블릿PC 등에서 음성인식 기술의 보급이 속도를 낼 것으로 예상되고 있다. 여기에 애플의 시리가 베스트바이와 상품검색 제휴를 맺는 등 새로운 사업모델로 생겨나는 추세다.

    하지만 아직까지 음성인식 기술이 완벽한 것은 아니기에 추가적인 기술개선이 필요하다. 예를 들어 스마트폰에 들어간 음성인식 기술을 사용해보면 30cm 정도의 가까운 거리에선 비교적 잘 되지만 주변이 시끄럽거나 50cm 이상 전화기와 입의 거리를 떨어뜨리면 인식률이 떨어지는 것을 볼 수 있다.

    키워드
    내가 본 뉴스 맨 위로

    내가 본 뉴스 닫기