이스트소프트는 자사의 인공지능(AI) 자동 더빙 기술 연구가 세계적인 자연어 처리(NLP) 학회 'EMNLP 2025'에 채택돼 중국 쑤저우에서 연구 결과를 발표했다고 17일 밝혔다.
이스트소프트 연구진의 논문은 대규모 언어모델(LLM)을 활용해 영상 원본의 발화 시간과 일치하는 다국어 자동 더빙을 구현하는 프레임워크를 제안한 내용이다. 기존 자동 더빙 과정에서 번역된 음성과 원본 음성의 길이가 달라 발생하던 부자연스러운 싱크 문제를 해결하는 데 초점을 맞췄다.
프레임워크는 STT(Speech-to-Text), NMT(Neural Machine Translation), TTS(Text-to-Speech) 모듈로 구성됐다. 연구진은 NMT 단계에 '발화 길이 조정 번역(DT, Duration-based Translation)'과 '발화 정지 정보 통합(Pause Integration)' 기술을 도입해 원본 음성의 지속 시간과 묵음 정보를 번역 과정에 반영하도록 했다. 이를 통해 발화 속도와 리듬을 자연스럽게 유지한 더빙 영상을 생성할 수 있도록 했다.
실험에서는 제안한 방식이 기존 상용 AI 더빙 시스템 대비 영상·음성 싱크 정확도가 24%, 다국어 청취 만족도가 12% 향상된 결과가 확인됐다. 논문 리뷰에서도 자동 더빙의 핵심 과제인 시간 동기화 문제 해결 가능성과 다국어 확장성 측면에서 의미 있는 성과로 평가됐다.
이번 연구는 이스트소프트의 페르소 AI 더빙(Perso AI Dubbing) 서비스 고도화 과정에서 추진된 실증 연구다. 연구진은 "해외 연구자들과 기술적 논의를 나눌 수 있었다"며 "글로벌 무대에서 기술의 완성도를 인정받아 의미가 있었다"고 말했다.
정상원 이스트소프트 대표는 "페르소 AI는 실제 서비스 과정에서 확인된 문제들을 개선하며 자동 더빙 기술을 고도화해 왔다"고며 "앞으로도 연구 성과를 기반으로 글로벌 AI 더빙 시장에서 경쟁력을 강화해 나가겠다"고 말했다.