OpenAIロゴ/オープンAI提供

ChatGPT開発社のオープンAIが新たな音声人工知能(AI)モデル3種を公開した。オープンAIはスマートフォンに続く次世代AI端末を準備中であり、当該端末の操作に必要な音声AIモデルを高度化しているとみられる。

オープンAIは7日(現地時間)、GPT-5級の推論能力を基に複雑な要求を処理できる音声モデル「GPT-リアルタイム-2」、音声をリアルタイムで翻訳するモデル「GPT-リアルタイム-トランスレート」、音声をリアルタイムでテキストに変換するモデル「GPT-リアルタイム-ウィスパー」を披露した。

オープンAIは「音声はソフトウエアを使う最も自然な方式として定着している」として開発背景を説明した。一例として、運転中に経路案内を指示したりメールを送る必要がある状況で、手を使わずに作業を続けるには音声技術が高度化される必要があるという説明である。

同社は「単に応答速度が速いことや自然な音声だけでは十分でない」とし、「リアルタイム音声技術が単純な問答水準を超え、会話の流れに沿って利用者の発話を聞き、推論し、翻訳し、書き取り、作業を遂行できるよう進化させている」と述べた。

「GPT-リアルタイム-2」の場合、利用者がAIの回答の途中に割り込んで話したり、先に話した内容を途中で言い直しても即座に反応できるよう設計した点が特徴だ。利用者とAIが交互に話さねばならなかった従来のAIモデルと異なり、実際の人と会話するかのような自然な対話が可能である。

現在、不動産プラットフォームのジロー、旅行プラットフォームのプライスライン、通信社のドイチェテレコムなどが当該モデルを試験導入中だと同社は説明した。ジローは顧客が音声で設定した条件に合わせて物件を検索し訪問日程を組む音声アシスタントを構築中で、ドイチェテレコムは顧客支援のリアルタイム翻訳サービスを実験中である。

オープンAIは自社のAI端末にも音声モデルを活用すると予想される。オープンAIはアップルの製品デザインを総括していたジョニー・アイブのスタートアップ「io」を昨年65億ドルで買収して以降、音声で操作できるAI端末を準備中だ。主要海外メディアは、当該端末がスマートグラスや衣服に装着できるピン型のスマート端末、スマートスピーカーなどになると見込んでいる。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。