ChatGPT開発社のオープンAIが画像生成・編集の人工知能(AI)機能を大幅に強化した。グーグルのAI画像生成器「ナノバナナ」が圧倒的な性能で旋風を起こしChatGPTの牙城を揺さぶると、オープンAIが新たな画像ツールを投入し反撃に出た。ChatGPTは上半期に日本のアニメ制作会社「スタジオジブリ」風の画像を作る機能で人気を集めたが、8月にグーグルが公開したナノバナナが「フォトショップを凌駕する」という評価を受けて形勢が逆転した。
生成AI市場の先頭の座を奪われないため「重大警報(コードレッド)」を宣言しChatGPTの性能改善に総力を挙げているオープンAIとグーグルの主導権競争が激化するなか、AI映像・画像生成分野がビッグテックの次世代技術の激戦地として浮上している。
◇ GPTイメージ1.5、ナノバナナを退けLMアリーナで1位
オープンAIは16日(現地時間)に新しい画像生成モデル「GPTイメージ1.5」を発売したと明らかにした。競合のグーグルが類似機能の「ナノバナナプロ」を披露してからわずか26日後だ。オープンAIは「重要なディテールはそのまま維持しつつ精密な編集が可能になり、画像生成速度は最大4倍速くなった」とし「新しい画像を作る時も既存の写真を編集する時も、利用者が考える結果により近い成果物を得られるようになった」と述べた。
従来のChatGPT画像ツールは部分修正機能が弱いという評価を受けていた。「背景色を白に変えてほしい」「照明をもっと暗くしてほしい」といった指示を入力すると、画像全体を新たに生成しながら要望を反映するため部分編集が難しかった。「GPTイメージ1.5」は利用者が求めた部分だけを変える編集機能を強化し、この限界を克服したと同社は説明した。
オープンAIは「今後は画像編集を依頼すると、照明、構図、人物の外形といった核心要素はそのまま維持しつつ、利用者が求めた部分だけを正確に変更できるようになる」とし、より緻密な編集で作業の一貫性を維持できるようになったと説明した。一例として、ある男性がスケートボードに乗る様子を写真で生成した後、元の画像をそのまま保ったまま帽子の色だけを変える微調整が可能になった。
フィジ・シモオープンAIアプリケーション部門最高経営責任者(CEO)は、こうした改善によってChatGPTが「ポケットの中の創作スタジオ」へと生まれ変わったと強調した。
実生活に活用できるインフォグラフィック生成機能も向上した。前バージョンでは「横6枠、縦6行の表を描いてほしい」という指示を適切に実行できず、表に入る要素を欠落させる場合が多かったが、新モデルは指示により安定的に従う。ナノバナナの強みとされた文字表現機能も補完し、より密で小さなテキストを処理できるようになったとオープンAIは説明した。
この日、GPTイメージ1.5は、利用者が直接AIモデルの性能を評価して順位を付ける「LMアリーナ・リーダーボード」でナノバナナプロを抑え、1位を記録した。
オープンAIの今回の発表は、グーグルの激しい追撃をけん制する措置だとの分析が出ている。グーグルが先月20日に披露したナノバナナプロは専門家水準の完成度を実現し、AI画像モデルの限界を克服したとの評価を受けた。ナノバナナがフォトショップ並みの精巧な編集機能で世界的な支持を得るなか、グーグルのGemini利用者も8月から11月の間に30%急増した。
Geminiの台頭に非常事態となったオープンAIは、社内で「重大警報(コードレッド)」を発動し、ChatGPTの性能改善に集中するよう指示した。画像ツールの機能を高めるためのパートナーシップも相次いで締結した。フォトショップをChatGPTの対話画面で直接起動できるようアドビと手を組み、コンテンツ大手のウォルト・ディズニー・カンパニーとは、ミッキーマウス、リトル・マーメイド、ライオン・キングなどのキャラクターをAI映像制作サービス「ソラ(Sora)」で使用できるよう契約を結んだ。
◇ AI映像・画像生成、ビッグテックの次世代激戦地に浮上
ナノバナナとGPTイメージ1.5は、AIの画像・映像生成技術が実験段階を超え、実際に活用可能な水準へと進化したことを示している。これまでアドビがフォトショップをはじめとする創作ツールを前面に出し、過去30年間独歩的な地位を維持してきたが、AI技術が急速に進展するなかで市場支配力が弱まっているとの懸念が出ている。専門家の領域だったコンテンツ制作・編集市場を生成AIが急速に代替し、業界の雇用地図まで変えている。
アドビもこの流れに歩調を合わせ、自社サービスへのAI導入を拡大している。この日アドビは、画像生成ツール「ファイアフライ」にAI企業トパズラボの「アストラ」モデルを適用し、AI動画生成機能を強化したと発表した。
イーロン・マスクテスラCEOが率いるAIスタートアップxAIのグロックは、画像を短い動画に変換する「グロック・イマジン」に注力している。グロック・イマジンは、露出規制が厳しい競合サービスに比べ制限が少ない点を強みとして掲げている。フェイスブックの親会社のMeta(メタ)は8月、画像・映像生成AIスタートアップのミッドジャーニーとライセンス契約を結び、自社サービスに導入することにした。