ユニットリー音声生成AI搭載G1実用化 IPO前に体化知能強化

人物が「走った後にプランクの姿勢を取れ」と命じると、ユニトリー・G1ロボットが音声を認識して指示どおりに動作している／ユニトリー YouTubeのキャプチャー

「その場でジャンプして、プランクの姿勢をやってみて。」人が音声で命令すると、身長132センチのヒューマノイドロボットが一瞬ためらった後、身をかがめて腕と脚を動かした。定められた振り付けを繰り返す代わりに、横から聞こえる指示に合わせて全身動作を実装した。来月1日に上海証券取引所の企業公開（IPO）審査を控える中国ロボット企業ユニットリーが公開した普及型ヒューマノイドロボット「G1」の音声制御デモの場面である。

29日、業界によると、ユニットリーは上場を前にロボットの頭脳に当たるソフトウエア能力の引き上げに速度を上げている。今回のデモで打ち出したのも、人の言葉をロボットの全身の動きに変える「行動生成人工知能（AI）」である。スマートスピーカーのように命令を聞き取るだけにとどまらず、言語指示を解釈した後に物理的動作へ移す方式だ。例えば人が「振り向いて」と言えば、ロボットは足の位置や腰の回転、腕のバランスなどを計算して機体を動かす。

ユニットリー側は「外部の音声に基づきAIがリアルタイムで動作を生成し、事前設定された軌跡は必要ない」と強調した。従来のヒューマノイドのデモは、開発者があらかじめ組んだ動作を呼び出して再生するか、人が遠隔で操縦する方式が多かった。いまはロボットが自律的に動作を作って動く能力が新たな勝負どころになっている。

ユニットリーは音声デモに続き、会議室の物品整理を遠隔操作なしで遂行する体化知能モデル「WVLA 2.0」も公開した。ユニットリーが上げた映像には、G1が会議室で物を認識した後に分類し、整理する過程が収められた。これまでユニットリーはハードウエアに比べてAIが弱いとの評価を受けてきたが、相次ぐソフトウエア公開はこうした弱点を補おうとする動きと解釈される。実際、ユニットリーは今年1四半期に体化知能の大規模モデルや運動制御アルゴリズムなどへの投資を増やし、研究開発費を前年同期より3832万8000元（約85億ウォン）増やした。

業界がユニットリーの今回のデモに注目したのは、この機能が高価な研究用ロボットではなく、1万ドル台の普及型機体で実装されたためである。G1はユニットリーが2年前に出したヒューマノイドのプラットフォームだ。モデルにより23〜43個に達する関節モーターと3Dライダー、距離認識カメラ、マイクなどを搭載した。2023年に業界で初めてその場で前宙をするヒューマノイドH1を公開した後、走行の世界記録を打ち立てるなど、バランス制御性能を改善してきた。ハードウエアの価格を下げて普及速度を高め、その上にAI制御機能を迅速に載せる戦略を続けている。

中国のロボット各社はこの方式でヒューマノイドの初期市場を掌握している。米国の企業が高性能機体と自社AIモデルで技術の完成度を高める間、中国企業は相対的に安価なヒューマノイドを先に市場に敷き、実際の駆動データを蓄積するやり方で追撃してきた。ユニットリーは昨年ヒューマノイドロボットを5500台余り出荷したと明らかにし、設立4年目の中国ロボット企業エイジボットも昨年5200台余りを出荷して世界の出荷量の上位に浮上した。米テスラは昨年ヒューマノイドロボット1万台の出荷を公言したが、実際の生産量は数百台にとどまったとされる。

ヒューマノイド業界の競争の軸は、次第にロボットの動きをAIが直接生成する方向へと移りつつある。フィギュアAIは視覚・言語・行動を統合したVLAモデル「ヘリックス」を昨年初めて公開したのに続き、今年3月には歩行と操作を一つの行動フローに束ねた「ヘリックス02」を披露した。ボストン・ダイナミクスとトヨタ・リサーチはヒューマノイドロボットのアトラスに大規模行動モデルを適用しており、エイジボットもテキスト・音声・映像入力をロボット動作に変換する生成制御モデルを出した。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。