GoogleがGemini3フラッシュを投入速度と性能を両立

グーグルのGeminiロゴ画像。

グーグルが先月に投入した「Gemini3」の軽量モデルを披露し、製品群の陣容を整えた。

グーグルは回答速度を高めコストを下げた人工知能（AI）モデル「Gemini3 フラッシュ」を発売すると17日（現地時間）明らかにした。Gemini3 フラッシュは無料利用者を含め、全世界でこの日から順次利用できる。

軽量モデルであるGemini3 フラッシュの発売により、グーグルのGemini3は最上位モデルの「ディープシンク」とバランス型モデルの「プロ」を含む三角編隊を備えることになった。軽量モデルは膨大なデータで学習した上位モデルを基に、いわゆる「蒸留」という作業を経て作る。一般的に速度が速く、上位モデルに匹敵する性能を示すのが特徴である。

Gemini3 フラッシュは速度が速い一方で優れた性能を有しているとグーグルは強調した。ジョシュ・ウッドワードグーグルラボ・Gemini担当副社長は「長らくAIは高価で遅い大型モデルと性能が劣る高速モデルの間で選択を強いてきた」と述べ、「Gemini3 フラッシュはこのような妥協を終わらせ、知能と速度を両立して提供する」と紹介した。

実際にグーグルが公開したこのモデルのベンチマークスコアを見ると、一般知識を測定する「MMLU-Pro」のスコアが81.2%、コーディング能力を測る「SWE-ベンチベリファイド」のスコアが78%で、上位モデルであるプロがそれぞれ記録した81%と76.2%よりむしろ高い。科学知識を測定する「GPQA ダイアモンド」と人類の最後の試験と呼ばれる「HLE」ベンチマークでもそれぞれ90.4%と33.7%を記録し、プロ（それぞれ91.9%、37.5%）と大きな差がない水準を示した。

グーグルは検索窓をチャットボット形式で利用できる「AIモード」でもGemini3 フラッシュを基本モデルとして適用した。企業顧客の活用度も高まる見通しだ。外部開発者がフラッシュモデルのサービスに接続して使用するAPI料金がトークン当たり0.5〜3ドルで、プロモデル（2〜12ドル）の4分の1に過ぎないためである。

グーグルは先月のGemini3発売以降、APIを通じて1日に1兆トークン以上を処理してきたと付け加えた。トークンはAIが文章を分析するために任意の断片に分割する単位である。ひとつの語が1トークンの場合もあれば、複数のトークンに分かれる場合もある。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。