OpenAIがGPT-5.2公開Gemini3を性能で上回る

オープンAIのロゴ／聯合ニュース

グーグルの追い上げに「重大警報（コードレッド）」を宣言したChatGPTの開発元オープンAIが、最先端の人工知能（AI）モデル「GPT-5.2」を披露した。グーグルの「Gemini3」がGPT-5を上回る性能で利用者を急速に増やすなか、危機感を抱いたオープンAIが前バージョンの公開から1カ月で新バージョンで応戦した形だ。

オープンAIは11日（現地時間）、専門的な知識業務のために設計したGPT-5.2をリリースすると明らかにした。GPT-5.2は情報検索、執筆、翻訳の性能がより高速かつ正確になり、人間の推論方式を模倣する能力を改善して、数学・プログラミングなど複雑かつ長文の作業処理能力が高まったとオープンAIは説明した。

GPT-5.2は従来の即答（Instant）、思考（Thinking）モードにプロ（Pro）モードを加え、合計3つのモードで構成した。

即答モードは日常的な業務や学習のための迅速な回答に最適化し、思考モードはコーディングや数学的な解法、長文の文書要約などに適している。プロモードは長い作業時間を要する難問を解決するのに適しているとオープンAIは紹介した。

オープンAIは最新モデルが推論とコーディング能力を強化し、幻覚（ハルシネーション）を減らしたうえ、AI性能を測定する各種ベンチマークで最高点を獲得したと強調した。フィジ・シモオープンAIアプリケーション部門最高経営責任者（CEO）は「GPT-5.2はスプレッドシート作成、プレゼンテーション構成、コード作成、画像認識、長期文脈理解、ツール活用など、複雑な多段階プロジェクトの遂行で最も優れた性能を示す」と語った。

専門産業現場44職種の業務遂行能力を評価するGDPval評価で、GPT-5.2思考モードは70.9%、プロモードは74.1%を記録し、人間の専門家と同等か、もしくはそれ以上の能力を備えたことが判明した。前バージョンのGPT-5（38.8%）と比べて性能が大幅に改善した。

ソフトウエアエンジニアリング能力を評価するSWEベンチマークでは80%を記録し、Gemini 3プロの76.2%を上回った。コーディング能力が高いことで知られるAnthropicのクロードオーパス4.5（80.9%）とはほぼ同等の水準まで到達した。「人間の最後の試験」と呼ばれる博士級推論能力測定ベンチマークHLEでもグーグルの最新AIモデルを凌駕した。

別途のツールを使わずモデル自体の能力のみで実施した評価では、GPT-5.2プロは36.6%で、Gemini3プロの37.5%よりわずかに低いスコアを記録した。一方で検索などのツールを用いて実施した評価では50%となり、Gemini3プロ（45.8%）より高得点を得た。

幻覚現象も大きく減らした。内部テストの結果、GPT-5.2思考モードの誤り率は6.2%で、前作のGPT-5.1思考モード（8.8%）と比べて約30%減少した。

長文の文脈を把握する能力や、グラフをはじめとする図や写真を認識する能力、多段階業務の解決能力なども向上した。

GPT-5.2は有料プランの購読者にこの日から順次提供する。開発者もAPIを通じて利用できる。新バージョンの投入に伴い、前バージョンのGPT-5.1は今後3カ月間提供したのちサービスを終了する。

オープンAIは当初GPT-5.2を月末にリリースする予定だったが、Gemini3プロが強力なベンチマークの成績を前面に掲げて利用者を引きつけるのを見て、前倒しで投入したと伝わった。

サム・アルトマンオープンAI最高経営責任者（CEO）は今月初めに社内へコードレッドを発令し、他の業務を脇に置いてChatGPTの性能向上と改善に集中するよう指示した。

オープンAIは来年1月に再び新しいモデルを披露した後、警報を解除する予定だとウォールストリート・ジャーナル（WSJ）が報じた。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。