グーグルがリアルタイムで70余りの言語を通訳・翻訳できる音声AI(人工知能)モデルを公開した。

グーグルは最新AIモデル「Gemini 3.5」を基盤とする「Gemini3.5ライブトランスレート」を、自社のビデオ会議プラットフォーム「グーグルミート」とモバイル翻訳アプリに適用すると9日(現地時間)明らかにした.

新たな翻訳モデルは、利用者が話し終えるまで待ってから翻訳する従来の逐次通訳(turn-by-turn)方式から、同時通訳に近い「連続リアルタイム生成」方式へと切り替えたと紹介した。利用者の発話を聞き、翻訳し、直ちに音声で伝える過程をリアルタイムで実行する。遅延は数秒程度で、実際の会話に近い流れを実現するとグーグル側は説明した。

このモデルは70余りの言語をサポートし、利用者が会話中に用いる言語を自動認識して翻訳する。複数の言語が入り混じる多言語の会話環境でも利用できる。

音声品質も改善した。機械的な音声を生成するのではなく、利用者の抑揚や話し方、ピッチなどを可能な限り生かし、自然な音声で伝える点が特徴だ。グーグルは「その結果、翻訳された音声が自然で、会話内容の理解もしやすくなる」と述べた。

グーグルはこのモデルが実環境で作動できるよう設計したと説明した。周囲の雑音が多い騒がしい場所や複数人が同時に話す状況、口語表現にも対応できるようにした。学校の授業や観光サービス、カスタマーサービスの電話応対、ライドヘイリングサービス、生放送など多様な分野で活用できるようにした。

また従来はiPhone・Androidスマートフォンのグーグル翻訳アプリで音声通訳を利用するには必ずイヤホンを接続する必要があったが、今後はイヤホンなしでも通話のようにスマートフォンを耳に当てれば翻訳音声を聞ける。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。