OpenAI副社長がAI評価刷新提言推論資源と時間反映へ

オープンAIのリサーチ部門副社長ノーム・ブラウン氏が3日、ソウル江南区のウェスティンソウルパルナスで開かれた「グローバルAIフロンティアシンポジウム2026」で基調講演を行っている。/ 李在恩記者

「最先端の人工知能（AI）モデルの性能は、推論（inference）に投入する演算資源と時間が増えるほど改善する傾向を示している。」

ノアム・ブラウンオープンAIリサーチ部門副社長は、現在の人工知能（AI）モデルの評価手法が実際のモデルの性能と安全性を適切に反映していないと主張した。AI産業の重心が学習から推論へと移るなか、主要な安全性評価とAIベンチマーク（性能指標）は、モデルが推論過程でどれだけ多くの時間・費用・トークン数を投入したかを測定しておらず、最先端モデルの能力とリスクを測れないという意味である。

ブラウン副社長は3日、ソウル江南区のウェスティンソウルパルナスで開かれた「グローバルAIフロンティアシンポジウム2026」の基調講演で「推論の比重が大きくなった時代に合わせてAIモデルの評価方式を変えるべきだ」と述べ、こう語った。最新のAIモデルは、利用者の質問に答えを出す前に論理的に考える過程（推論）で使用する演算資源と時間である「テストタイムコンピュート（Test-Time Compute）」が増えるほど問題解決能力もともに向上するが、現存するベンチマークと安全性評価はこの流れに追いついていないと指摘した。

同氏は「オープンAIが4月にGPT-5.5モデルをリリースした際、明らかに（前モデルより）性能は向上したが、主要ベンチマーク基準では大きく進歩したようには見えなかった」とし、「むしろ利用者がモデルをさまざまな作業に使ってみた後にどれほど性能が改善したかを実感した。先端モデルは推論過程に投入する時間と演算量が増えれば性能が向上するためだ」と述べた。

実際に英国AI安全研究所が実施したサイバーセキュリティ評価によると、オープンAIのGPT-5.5やAnthropicの「Mythos」のような先端モデルは、1億個のトークン（token・AIモデルが情報を処理し回答を生成するために用いる基本単位）を出力するまで性能が継続的に改善した。これも両モデルの性能が限界に達したのではなく、AI安全研究所の予算とインフラが不足して実験を中断し、トークン1億個を出力するまでに限って性能評価が行われたということだ。

ブラウン副社長は「GPT-4の場合、演算資源をいくら増やしても性能が一定水準で頭打ちになったが、最新モデルは性能が頭打ちになる地点が遠く、従来の評価方式では実力を把握しにくい」と説明した。

同時に、今後は推論コストと時間、モデルが答えを出すために生成したトークン数などに応じた性能変化をAIモデル評価に反映すべきだと主張した。ブラウン副社長は「これによって高コスト環境でのモデルの潜在能力を予測すべきだ」と強調した。とりわけ多数のAIエージェントが長期間協働する時代に備え、こうしたモデルのリスクと性能を測る評価体系を整備することが重要になったと診断した。

ブラウン副社長は「AIの進化スピードが速く、新しいモデルのリリース周期が2〜3カ月と短くなった」とし、「問題は、今のような評価体系では次のモデルが出る前に現在のAIモデルの能力がいつ限界点に達するのかを把握できない可能性が高いことだ」と診断した。

現在オープンAIが注力している課題を問う質問には「長期間にわたり活動し互いに協力するAIエージェントの時代を切り開くこと」と答えた。ブラウン副社長は「宇宙探査やAIなどの技術は、人間が過去1万年の間に生物学的にはるかに賢くなったから可能になったのではなく、数十億人が数千年にわたり互いの知識を受け継ぎ、協力し、新しい知識を蓄積してきた結果だ」とし、「今後数年以内に数十億のAIエージェントが互いの知識を共有し、互いの成果に基づいて学習しながら人間の専門性を補完し、人類の主要課題を解決する時代が到来すると見込む」と述べた。

この日、科学技術情報通信部と情報通信企画評価院が共同主催した「グローバルAIフロンティアシンポジウム2026」には、国内外のAI産学研関係者が多数出席した。レスリー・パック・ケーブルリング米国マサチューセッツ工科大学（MIT）パナソニック特別教授が「合理的ロボット」をテーマに、ノアム・ブラウンオープンAIリサーチ部門副社長が「大規模推論演算の示唆点」をテーマにそれぞれ基調講演を行った。

続く専門トラックでは、イム・ウヒョンLG AI研究院長、モリタ・ジュン Perplexityアジア代表、キム・ミョンジュ人工知能安全研究所長らが発題者として登壇した。このほか、ポスコ、LGエレクトロニクス、オープンAI、Anthropic、Perplexityなど主要企業関係者と、フランスのプレーリ研究所、カナダのベクター研究所など海外研究機関も参加した。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。

OpenAI副社長がAI評価刷新提言 推論資源と時間反映へ

OpenAI副社長がAI評価刷新提言推論資源と時間反映へ