ヒューマノイドロボットの量産競争が本格化する中で、データの確保能力が核心的な競争力として浮上している。人工知能(AI)を学習させるデータの量と質がヒューマノイドの性能を左右する決定的要素とみなされるためだ。企業はとりわけ「合成データ」の確保によってデータ競争力の強化に乗り出している。合成データとは、実環境で収集したデータではなく、AIモデルやシミュレーション、統計的手法に基づき人為的に生成したデータを指す。
27日、ロボット業界によると、最近、韓国のフィジカルAI企業リアルワールド(RLWRLD)が自社開発のロボティクス・ファウンデーションモデル「RLDX-1」を公開した。
ロボティクス・ファウンデーションモデルは、大規模データを学習し、多様な環境や作業に適用できる汎用AIモデルである。大規模言語モデル(LLM)が大量のテキストデータを学習して回答を生成したり推論したりするのと同様に、ロボティクス・ファウンデーションモデルも実世界データを学習し、多様な物理作業を遂行するよう設計される。
リアルワールドが開発したRLDX-1は、ロボットの手が人の手のように精巧に動くよう設計されたモデルだ。物体の重さや形状、動きはもちろん、複雑な物理環境も理解できる。
ロボット・ファウンデーションモデルの性能を左右する核心要素はデータである。特に産業現場に投入されるヒューマノイドの手が工場環境に合わせて動くには、実際の人の手の動きだけでなく、物体の位置など工場環境を学習するために必要なデータを確保することが重要だ。
リアルワールドは、ロボットのビジョン言語モデル(VLM)と視覚行動モデル(VLA)の学習に必要なデータを自前で確保する体制を構築した。
一般的にロボットハンドモデルを学習させるには、人の手にグリッパーなどのロボット装置を装着し、動作データを収集する。しかしこの方式は装置の装着により人の自然な動きが制約される可能性があり、人の手に近い5本指形態のロボットハンドには適用が難しいという限界がある。
リアルワールドのRLDX-1は、人の手を撮影して素手の動きを追跡する方式でデータを収集する。撮影した手の関節の動きをデジタルデータに変換し、VLA学習に活用する方式だ。この方式により、リアルワールドは、ロボット・ファウンデーションモデルが物体の重さに応じて手の圧力を調整したり、特定の作業目的に応じて指を動かすなど、複雑な実際の手の動きを学習できるデータの品質と量を確保できるようにした。
また、合成データを活用して、ロボットハンドが投入される工場環境の学習に必要なデータを確保できる体制を整えた。
実環境で収集したデータは品質は高いが、大量確保が難しく費用もかかる。一方、合成データは大量生成が可能で、AIやシミュレーションを活用して実環境では確保しにくい多様な環境のデータを生成し、実データの限界を補完できる。
RLDX-1は、ビデオ生成AIを用いた合成データ確保の体制を備える。リアルワールド関係者は「ロボットの作業環境は複雑で体系的でない場合が多く、工場内で実際のロボットデータを収集するのは非常に難しい」と述べ、「ビデオ生成モデルを基盤に合成データの体制を構築し、多様な物体や照明、背景などが含まれる実際の状況で発生し得る新たなビデオを生成して、データセットの規模を約5倍程度拡張した」と説明した。
ROBOTISは最近、自社開発のヒューマノイド「AIサピエンス」が国内アイドルグループの振り付けを真似て踊る映像を公開した。AIサピエンスは振り付け映像を学習した後、合成データを活用して多様な動作データを追加で学習した。複雑なダンス動作は関節の動きだけでなく、バランス維持や姿勢転換まで精緻に制御する必要があるため、大規模な学習データが不可欠だ。
ROBOTIS関係者は「複雑な振り付けを実現するには、アクチュエーターの性能だけでなく十分な学習データが必要だ」と述べ、「合成データを通じて多くのデータを確保したため、難度の高い動作も安定的に実現できる」とした。
学界でも、ヒューマノイドの動作性能向上に向けて合成データの活用に注目している。
中国の研究中心大学である復旦大学と上海交通大学など4大学の研究陣は今月初め、論文事前公開サイト「アーカイブ(arXiv)」に公開した研究結果で、3次元(3D)シミュレーションを活用した合成データの確保とヒューマノイドのデータ学習の方策を提示した。
研究陣は「シミュレーションによる合成データ手法で、実際の動作に合致するデータを大規模に生成できる」とし、「3Dモデルを用いて実画像から写実的な物体を再構成し、シミュレーション環境で遠隔操作によってデータを増強した」と説明した。
さらに「実際のヒューマノイドロボットを対象に広範な実験を行った結果、シミュレーションデータで学習した結果が、実ロボットデータで学習した方策より大半の作業でより高い成功率を示した」とした。
ハン・ジェグォン漢陽大学ロボット工学科教授は「ロボットの性能は、誰がどのように勉強したかによって試験の点数が変わるように、データ確保体制やデータの品質によって変わる」と述べ、「人間の動きのデータを取得する方法は数十通りあり、企業ごとにさまざまなアイデアが出ている状況だ」と語った。
さらに「合成データでデータを収集すれば、危険だったり作りにくいデータを生成できるうえ、実際に生成するには膨大な数十万件水準のデータを作り出すことができる」とし、「このようなデータ確保体制を構築するのは容易ではないだろうが、結局それがその会社の実力になる」と説明した。