EMNLP 2025に参加したESTsoftの研究陣。/ESTsoft提供

ESTsoftは自社の人工知能(AI)自動ダビング技術に関する研究が世界的な自然言語処理(NLP)学会「EMNLP 2025」に採択され、17日に中国・蘇州で研究成果を発表したと明らかにした。

ESTsoft研究陣の論文は、大規模言語モデル(LLM)を活用し、映像原本の発話時間と一致する多言語自動ダビングを実現するフレームワークを提案した内容である。従来の自動ダビング過程で翻訳音声と原本音声の長さが異なって発生していた不自然なシンク問題を解決することに焦点を合わせた。

フレームワークはSTT(Speech-to-Text)、NMT(Neural Machine Translation)、TTS(Text-to-Speech)モジュールで構成した。研究陣はNMT段階に「発話長さ調整翻訳(DT, Duration-based Translation)」と「発話停止情報統合(Pause Integration)」技術を導入し、原本音声の持続時間と無音情報を翻訳過程に反映するようにした。これにより発話速度とリズムを自然に維持したダビング映像を生成できるようにした。

実験では、提案方式が既存の商用AIダビングシステム比で映像・音声のシンク精度が24%、多言語聴取満足度が12%向上した結果を確認した。論文レビューでも自動ダビングの核心課題である時間同期化問題の解決可能性と多言語拡張性の側面で意味のある成果と評価された。

今回の研究はESTsoftのペルソAIダビング(Perso AI Dubbing)サービス高度化過程で推進した実証研究である。研究陣は「海外研究者と技術的な議論を交わすことができた」とし「グローバル舞台で技術の完成度を認められ意味があった」と語った。

チョン・サンウォンESTsoft代表は「ペルソAIは実際のサービス過程で確認された問題を改善しながら自動ダビング技術を高度化してきた」とし「今後も研究成果を基盤にグローバルAIダビング市場で競争力を強化していく」と述べた。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。