グーグルが次世代の軽量型人工知能(AI)モデルと、それを基盤とした能動型エージェントを同時に公開した。あわせて25年ぶりに最大幅で改編した検索システムや次世代映像生成モデルも披露し、検索から業務自動化、コンテンツ制作までを網羅するAI生態系の拡張に乗り出した。
グーグルは19日(現地時間)、米カリフォルニア州マウンテンビューのショアライン・アンフィシアターで開催した年次開発者イベント「Google I/O」で次世代モデル「Gemini 3.5 フラッシュ」を発表した。
Gemini 3.5 フラッシュは軽量モデルでありながら、既存の最上位モデルである「Gemini 3.1 プロ」よりもエージェント、コーディング、金融分析など大半のベンチマークで高い性能を記録した。
とりわけエージェント規格であるモデル・コンテクスト・プロトコル(MCP)と金融分析ベンチマークでは、Gemini・GPT・Claudeの最上位公開モデルをいずれも上回った。コーディング分野ではターミナル環境ベンチマークでGPT-5.5に近いスコアを記録した。ただし一般的なコーディング能力指標である「SWE-ベンチ プロ」では、Claude オーパス4.7とGPT-5.5より低い成績を示した。
Gemini 3.5 フラッシュは他の最上位モデルより最大4倍速い出力速度を提供する軽量モデルという点で、業務現場での活用度が高いと見込まれる。
スンダー・ピチャイ最高経営責任者(CEO)は「企業が年間の(AI)トークン予算を5月にもならないうちに使い切ったという話を聞いたことがあるだろう」と述べ、「もし1日にトークン1兆個を使う企業が業務量の80%をフラッシュモデルなどに切り替えれば、年間で10億ドル以上を節減できる」と語った。
この日グーグルはGemini 3.5を基盤とした能動型エージェント「Gemini スパーク」も公開した。このサービスはユーザーのメール要約、日次ブリーフィング作成、反復業務の処理、複雑なコーディング、長期プロジェクトの遂行などを支援する。ノートPCを閉じたり、スマートフォン画面を消した状態でも24時間作動する。
グーグルの中核サービスである検索も25年ぶりの大きな変化を迎える。ユーザーはテキストだけでなく画像、ファイル、映像まで添付して検索でき、結果画面には理解を助ける視覚資料やウィジェットがリアルタイムで生成される。検索結果上段の「AI概要」から対話型の「AIモード」へ自然に移行するインターフェースも導入される。
ショッピング分野では、検索、Gemini、YouTube、Gmailを連動し、価格追跡から決済まで自動で実行する「ユニバーサルカート」を今夏に米国で披露する。
テキスト、音声、画像、映像などあらゆる形態の入力と出力を処理できるマルチモーダル動画生成モデル「Gemini オムニ」も公開された。
既存の動画モデル「ビオ」がテキストを映像に変換する役割にとどまったのに対し、Gemini オムニは既存映像のキャラクターを差し替えたりスタイルを変換する機能も備えた。さらに物理法則を理解し、より写実的な映像を実装できるとグーグルは説明した。
Gemini オムニで生成された動画には、AI生成の有無を識別できるデジタル透かし「シンスID(SynthID)」が適用される予定だ。
Gemini 3.5 フラッシュはこの日からすべてのユーザーが利用できる。Gemini オムニは有料購読者に提供され、Gemini スパークはウルトラ料金プラン加入者を対象に試験サービスの形で運用される。