“중간에 말 끊어도 맥락 이해”… 오픈AI, 음성 AI 모델 3종 공개

오픈 AI 로고./오픈AI 제공

챗GPT 개발사 오픈AI가 새로운 음성 인공지능(AI) 모델 3종을 공개했다. 오픈AI는 스마트폰을 이을 차세대 AI 기기를 준비 중인데, 해당 기기 조작에 필요한 음성 AI 모델을 고도화하고 있는 것으로 풀이된다.

오픈AI는 7일(현지시각) GPT-5급 추론 능력을 기반으로 복잡한 요청을 처리할 수 있는 음성 모델 'GPT-리얼타임-2', 음성을 실시간으로 번역해주는 모델 'GPT-리얼타임-트랜슬레이트', 음성을 실시간으로 텍스트로 변환하는 모델인 'GPT-리얼타임-위스퍼'를 선보였다.

오픈AI는 "음성은 소프트웨어를 사용하는 가장 자연스러운 방식으로 자리잡고 있다"며 개발 배경을 설명했다. 일례로 운전 중 길 안내를 지시하거나 이메일을 보내야 하는 등의 상황에서 손을 사용하지 않고 작업을 이어가려면 음성 기술이 고도화돼야 한다는 설명이다.

회사는 "단순히 빠른 응답 속도나 자연스러운 음성만으로는 충분하지 않다"며 "실시간 음성 기술이 단순한 문답 수준을 넘어서서 대화 흐름에 따라 이용자의 말을 듣고 추론하며 번역하고 받아적으며 작업을 수행할 수 있도록 발전시키고 있다"고 했다.

'GPT-리얼타임-2'의 경우 이용자가 AI가 대답하는 중간에 끼어들어 말을 하거나 앞서 말했던 내용을 중간에 고쳐 말해도 즉각 반응할 수 있도록 설계한 것이 특징이다. 이용자와 AI가 번갈아 말해야 했던 기존 AI 모델과 달리 실제 사람과 대화하는 것처럼 자연스러운 대화가 가능하다.

현재 부동산 플랫폼 질로우, 여행 플랫폼 프라이스라인, 통신사 도이체텔레콤 등이 해당 모델을 시범 도입 중이라고 회사 측은 설명했다. 질로우는 고객이 음성으로 설정한 조건에 맞춰 매물을 검색하고 방문 일정을 잡아주는 음성 비서를 구축 중이고, 도이체텔레콤은 고객 지원 실시간 번역 서비스를 실험 중이다.

오픈AI는 자체 AI 기기에도 음성 모델을 활용할 것으로 예상된다. 오픈AI는 애플의 제품 디자인을 총괄했던 조니 아이브의 스타트업 'io'를 지난해 65억 달러에 인수한 이후 음성으로 조작할 수 있는 AI 기기를 준비 중이다. 주요 외신은 해당 기기가 스마트 안경이나 옷에 부착할 수 있는 핀 형태의 스마트 기기, 스마트 스피커 등이 될 것으로 전망하고 있다.

"중간에 말 끊어도 맥락 이해"… 오픈AI, 음성 AI 모델 3종 공개