구글이 실시간으로 70여개 언어를 통·번역할 수 있는 음성 인공지능(AI) 모델을 공개했다.
구글은 최신 AI 모델 '제미나이 3.5'을 기반으로 한 '제미나이3.5 라이브 트랜슬레이트'를 자사 화상회의 플랫폼 '구글 미트'와 모바일 번역 애플리케이션(앱)에 적용한다고 9일(현지시각) 밝혔다.
새 번역 모델은 이용자가 말을 마칠 때까지 기다린 뒤 번역을 하는 기존 순차 통역(turn-by-turn) 방식에서 동시 통역에 가까운 '연속 실시간 생성' 방식으로 바뀌었다고 소개했다. 이용자의 말을 듣고, 번역한 뒤 즉시 음성으로 전달하는 과정을 실시간으로 수행한다. 지연 시간은 단 몇 초 수준으로, 실제 대화와 유사한 흐름을 구현한다고 구글 측은 설명했다.
이 모델은 70여개 언어를 지원하며, 이용자가 대화 중 사용하는 언어를 자동으로 인식해서 번역한다. 여러 언어가 뒤섞이는 다국어 대화 환경에서도 사용할 수 있다.
음성 품질도 개선했다. 기계적인 음성을 생성하는 대신 이용자의 억양이나 말투, 음높이 등을 최대한 살려 자연스러운 음성으로 전달한다는 점이 특징이다. 구글은 "그 결과 번역된 음성이 자연스럽고, 대화 내용을 이해하기도 쉬워진다"고 했다.
구글은 이 모델이 실제 환경에서 작동할 수 있도록 설계됐다고 설명했다. 주변 소음이 많은 시끄러운 장소나 여러 사람이 동시에 말하는 상황, 구어체 표현도 처리할 수 있도록 했다. 학교 수업이나 관광 서비스, 고객 서비스 응대 전화, 차량 호출 서비스, 생방송 등 다양한 분야에서 활용될 수 있도록 한 것이다.
또 기존에는 아이폰·안드로이드폰의 구글 번역 앱에서 음성 통역을 이용하려면 반드시 이어폰을 연결해야 했지만, 이제는 이어폰 없이도 통화하듯이 스마트폰을 귀에 대면 번역된 음성을 들을 수 있다.