人工知能(AI)分野の権威であるヤン・ルカンニューヨーク大学教授は「今後3〜5年のうちに、われわれが使用するAIの基盤となっている大規模言語モデル(LLM)は時代遅れとなり、物理的世界を理解する『ワールドモデル』が主流として定着する」と述べた。ルカン教授は先月、12年間在籍したMeta(メタ)を離れ、LLMベースのAIモデルの限界を克服するワールドモデルを開発するスタートアップを設立すると明らかにした。
ルカン教授が強調したワールドモデルは、現実世界の物理法則を理解し予測するAIモデルで、次世代AIの主戦場として注目されている。現在、広く使われるChatGPT・GeminiなどのAIチャットボットはLLMベースであり、テキストを大量に学習し次に来る単語を予測する方式で論理的な回答を生成する。LLMはレポート作成、情報検索などの知識業務では有用だが、現実世界で起きる複雑な状況を認識したり予測したりできないという限界を示す。
ルカン教授は、LLMは人間のように推論し計画する能力を備えることができないため、AIが人間のように世界を直接観察しながら学習するワールドモデルが必要だと強調してきた。教授は「4歳児が半日遊びながら自然に受け取る情報量は、現在最も強力なLLMがインターネット全体で学習したテキストを基に推論できる情報量より多い」と述べた。子どもは指示がなくても『ボールを丘で手放すと転がり落ちる』という物理的な常識と因果関係を身につけるが、LLMはその動きを説明する言語的パターンのみを学習するということだ。
教授は、ビッグテック企業がAIが人間レベルの知能に匹敵する汎用人工知能(AGI)とそれを超える超知能を目標に掲げているが、LLMだけでは猫や犬レベルの知能すら達成できないと指摘した。ルカン教授は「現在のAIは物理的世界の理解という側面で、いまだ猫より愚かだ」と述べ、「AIが映像と空間データを自律的に学習し、世界が作動する原理を内在化してこそ、人間レベルの思考に近づける」とした。
ワールドモデルが重要な理由は、ロボット、自動運転といったフィジカルAI領域の拡張に不可欠だからである。例えば将来の家庭用ロボットが洗濯物をたたんだり、玩具で散らかった子ども部屋を片付けたりする作業を担うと仮定すると、ロボットは家庭という環境の状態変化を理解するよう設計されたワールドモデルを基盤に作動する。ワールドモデルはテキスト・画像・映像などの情報に基づいて仮想の3D世界を生成し、時間の経過とともに進化する時空間的な因果関係を予測できるように設計される。LLMが次に来る単語を確率に基づいて推論するなら、ワールドモデルは『次に来る状況』を予測し、それに見合った判断を下すことを助ける。
ビッグテックと主要AI企業は、ワールドモデルが今後、配達ロボットや自動運転車など多様な分野で適用可能だとみて、関連技術の開発と商用化に着手した。「AIのゴッドマザー」と呼ばれるフェイフェイ・リースタンフォード大学コンピューター工学科教授が設立したAIスタートアップ、ワールドラボは先月、初の商用ワールドモデル「マーブル(Marble)」を披露した。マーブルはテキストや画像、動画を入力すると、編集とシミュレーションが可能な3D世界を生成する。リー教授は「マーブルは『空間知能』への第一歩だ」とし、「LLMが機械に読み書きの能力を教えたのに対し、ワールドモデルは空間を見て理解し、さらに構築する能力を教える」と述べた。
グーグル・ディープマインドは、3D仮想世界をリアルタイムで生成しシミュレーションする次世代ワールドモデル「ジニ3」を2025年8月に公開した。グーグルは、ジニ3が物体の動きと相互作用をリアルタイムで学習して3D世界で再現し、このとき仮想世界の物体や光、水の流れなどの物理現象を実物のように自然に表現する能力を強みとして挙げた。
Meta(メタ)も2025年6月にワールドモデル「V-JEPA 2」をリリースした。同モデルは100万時間以上の映像学習に基づき、特定の行動を予測するよう設計された。『フィジカルAI』を将来の収益源と位置付けるエヌビディアは2025年初頭にワールドモデル「コスモス」を公開した。エヌビディアは、コスモスがロボットと自動運転車の訓練に活用されると説明した。イーロン・マスク率いるテスラの最高経営責任者(CEO)が率いるxAIは最近、エヌビディア出身のAI研究者を多数採用し、ゲームとロボットに適用するワールドモデルを開発中とされる。
LLMと同様に、ワールドモデルも学習に用いる高品質データを確保することが課題だ。ワールドモデルは各種映像、3D空間データ、物体の重さや質感に関する情報など、多様なデータを必要とするため、相対的にテキストより入手が難しい。ルカン教授もこうした限界を指摘し、高度化された商用モデルを開発するまでに10年かかる可能性があると見通した。
フィジカルAI分野の専門家であるケン・ゴールドバーグUCバークレー産業工学科教授は「Gemini、ChatGPTなどLLMの場合、これまで出版されたすべての書籍、記事、ウェブサイトなど10万年分のデータに基づいて学習している一方、ロボット訓練に必要なデータは1万時間分にすぎない」と述べ、「10万年のデータギャップ(100,000-year data gap)」が存在すると語った.