グーグルの追い上げに「重大警報(コードレッド)」を宣言したChatGPTの開発元オープンAIが、最先端の人工知能(AI)モデル「GPT-5.2」を披露した。グーグルの「Gemini3」がGPT-5を上回る性能で利用者を急速に増やすなか、危機感を抱いたオープンAIが前バージョンの公開から1カ月で新バージョンで応戦した形だ。
オープンAIは11日(現地時間)、専門的な知識業務のために設計したGPT-5.2をリリースすると明らかにした。GPT-5.2は情報検索、執筆、翻訳の性能がより高速かつ正確になり、人間の推論方式を模倣する能力を改善して、数学・プログラミングなど複雑かつ長文の作業処理能力が高まったとオープンAIは説明した。
GPT-5.2は従来の即答(Instant)、思考(Thinking)モードにプロ(Pro)モードを加え、合計3つのモードで構成した。
即答モードは日常的な業務や学習のための迅速な回答に最適化し、思考モードはコーディングや数学的な解法、長文の文書要約などに適している。プロモードは長い作業時間を要する難問を解決するのに適しているとオープンAIは紹介した。
オープンAIは最新モデルが推論とコーディング能力を強化し、幻覚(ハルシネーション)を減らしたうえ、AI性能を測定する各種ベンチマークで最高点を獲得したと強調した。フィジ・シモオープンAIアプリケーション部門最高経営責任者(CEO)は「GPT-5.2はスプレッドシート作成、プレゼンテーション構成、コード作成、画像認識、長期文脈理解、ツール活用など、複雑な多段階プロジェクトの遂行で最も優れた性能を示す」と語った。
専門産業現場44職種の業務遂行能力を評価するGDPval評価で、GPT-5.2思考モードは70.9%、プロモードは74.1%を記録し、人間の専門家と同等か、もしくはそれ以上の能力を備えたことが判明した。前バージョンのGPT-5(38.8%)と比べて性能が大幅に改善した。
ソフトウエアエンジニアリング能力を評価するSWEベンチマークでは80%を記録し、Gemini 3プロの76.2%を上回った。コーディング能力が高いことで知られるAnthropicのクロードオーパス4.5(80.9%)とはほぼ同等の水準まで到達した。「人間の最後の試験」と呼ばれる博士級推論能力測定ベンチマークHLEでもグーグルの最新AIモデルを凌駕した。
別途のツールを使わずモデル自体の能力のみで実施した評価では、GPT-5.2プロは36.6%で、Gemini3プロの37.5%よりわずかに低いスコアを記録した。一方で検索などのツールを用いて実施した評価では50%となり、Gemini3プロ(45.8%)より高得点を得た。
幻覚現象も大きく減らした。内部テストの結果、GPT-5.2思考モードの誤り率は6.2%で、前作のGPT-5.1思考モード(8.8%)と比べて約30%減少した。
長文の文脈を把握する能力や、グラフをはじめとする図や写真を認識する能力、多段階業務の解決能力なども向上した。
GPT-5.2は有料プランの購読者にこの日から順次提供する。開発者もAPIを通じて利用できる。新バージョンの投入に伴い、前バージョンのGPT-5.1は今後3カ月間提供したのちサービスを終了する。
オープンAIは当初GPT-5.2を月末にリリースする予定だったが、Gemini3プロが強力なベンチマークの成績を前面に掲げて利用者を引きつけるのを見て、前倒しで投入したと伝わった。
サム・アルトマンオープンAI最高経営責任者(CEO)は今月初めに社内へコードレッドを発令し、他の業務を脇に置いてChatGPTの性能向上と改善に集中するよう指示した。
オープンAIは来年1月に再び新しいモデルを披露した後、警報を解除する予定だとウォールストリート・ジャーナル(WSJ)が報じた。