ChatGPTの開発企業であるオープンAIが、人のように自然に話し聞くことができる人工知能(AI)機器を披露するため、音声AIモデルの開発を加速している。オープンAI、グーグル、Meta(メタ)などのビッグテック各社は、スマートフォンではない新しい形態の機器がAI時代の求心点になるとみて、次世代AI機器の開発に着手した。
スマートフォン以後の機器が具体的にどのような姿になるかはまだ不明だが、ビッグテックは既存の「画面を通じて見る」インターフェース(接続方式)が次第に後退し、「音声で話し聞く」インターフェースが中心になる可能性が高いと見込み、音声AI技術の高度化に拍車をかけている。
オープンAIは今年第1四半期中に新たな音声AIモデルを公開する予定だと、テック専門メディアのザ・インフォメーションが1日(現地時間)に報じた。新モデルはより自然で感情を含んだ応答が可能で、利用者が話している最中に割り込む状況でも柔軟に対処できるとされる。オープンAIは直近2カ月間、エンジニアリングチーム、プロダクトチーム、リサーチチームを統合し、音声AIモデルの全面的な改編作業を進めた。
報道によるとオープンAIは、道具というより「伴走者のような」次世代AI機器の製品群を準備しており、ここには眼鏡や画面のないスマートスピーカーが含まれる可能性がある。
先にサム・アルトマンオープンAI最高経営責任者(CEO)は、スマートフォンを代替または補完するAI中心の機器が登場し、「オープンAIの最終的な競争相手はグーグルではなくアップルになる」と述べた。アルトマンは、スマートフォンはAIを最大限に活用するのに適しておらず、新しい形態の機器が必要になると強調した。
そのためにオープンAIは、アップルでチーフデザイナーを務めたジョニー・アイブのAI機器スタートアップ「IO」を65億ドルで買収し、アップル製品を受託生産する中国のサプライヤーであるルクスシェアとも契約を結んだ。音声AI技術の高度化に向け、最近「Character.AI」でオーディオ部門を率いたクンダン・クマールを招へいし、リアルタイム音声インターフェースチームを任せた。
ビッグテック各社も「次世代のアイフォーン」を先に打ち出すためにAI機器を開発中で、共通して画面の比重が下がりオーディオが中心となる未来を構想している。
グーグルは昨年、検索結果を対話型に要約する「オーディオオーバービュー」の実験を開始し、利用者が直接声で質問すればリアルタイムの音声応答を受けられる「サーチライブ」機能を導入した。両音声検索サービスはいずれもグーグルの代表的AIモデル「Gemini」を基盤としている。グーグルは今年、先端のGeminiモデルを組み合わせた「スマートグラス」を発売する予定で、新機器にも音声技術を活用する計画だ。
フェイスブックの持株会社であるMeta(メタ)もレイバンと協力して開発したスマートグラスに、5つのマイクアレイを活用し騒がしい環境でも会話をより聞き取りやすくする機能を導入した。イーロン・マスクテスラ最高経営責任者(CEO)は、テスラ車両に自ら率いるxAIのAIモデル「Grok」を統合し、ナビゲーションから空調装置まで自然な対話で制御できる音声アシスタントの実装を主導している。
業界では、すでにスマートスピーカーに搭載された音声アシスタントが日常化していることから、今後音声AI基盤の市場がより速く成長すると見ている。米国ではスマートスピーカーを基盤に作動する音声AIを全世帯の3分の1が使用している。市場調査会社マーケッツ・アンド・マーケッツによると、生成型音声AI市場は41億6000万ドル(約6兆ウォン)から207億ドル(約30兆ウォン)規模へと約5倍に拡大する見通しだ。