「過去27年間で蓄積した検索インフラとノウハウ、ブログ・カフェなどの膨大なコンテンツ、ショッピング・プレイスなど多様なサービス資産はNAVERならではの競争力だ。これらを人工知能(AI)技術でつなぎ、検索から実行まで一気通貫の体験をAI検索に実装した。」
ハン・スンギュンNAVER AI検索サービスリーダーは2日、NAVER D2SF江南で開かれた懇談会でこう述べた。NAVERは25日、AIベースの対話型検索サービス「AIタブ」を正式リリースした。利用者と対話しながら意図と文脈を把握し、最適な結果を提示するサービスである。NAVERはこの日、AIタブに適用した中核技術3つを紹介した。▲AI検索のために開発したプロダクトネイティブ大規模言語モデル(LLM)▲AIを効率的に運用するハーネスエンジニアリング▲AIの視覚的理解を拡張するマルチモーダル技術である。
◇ 応答速度と効率を高めたプロダクトネイティブLLM
NAVERのAIタブにはプロダクトネイティブLLMが適用された。ハイパークローバXを基盤に軽量化したモデルである。イ・ギチャンNAVERクラウド ハイパースケールAIモデル理事は「プロダクトネイティブLLMの志向は、あらゆるベンチマークで1位を取ることではなく、NAVERの利用者が検索・購入・予約をする際に最も良い性能を出すことだ」と述べ、「学習データ構築からモデル設計、強化学習まで全工程をNAVERのサービスに合わせて最適化した」と紹介した。
NAVERはプロダクトネイティブLLMの効率性を極大化するため、データ、アーキテクチャ、トレーニングの3本柱を中心に開発したと紹介した。データ面では学習データの品質を高め、アーキテクチャ面では一部パラメーターのみを選択して大規模サービス環境に最適化した専門家混合(MoE・Mixture of Experts)構造を導入した。既存のハイパークローバXに比べて応答速度を高め、スループットを増やした。トレーニング段階では強化学習に投入するコンピューティング資源を既存のハイパークローバX比で2倍以上に拡大した。さらに、AIが追加質問を通じて利用者の意図を明確に確認するようにする明瞭性強化学習(Clarify RL)技術を導入し、ハルシネーション(幻覚)を減らした。
◇ LLMにのみ依存せずSLMを組み合わせ
AIサービスにはモデルの性能も重要だが、モデルが実際にうまく働ける作業環境を設計することも重要である。AIの作業環境を整えることを「ハーネスエンジニアリング」と呼ぶ。ハンリーダーはハーネスエンジニアリングをAIの「仕事勘」に例え、「AIエージェントを作るにはLLMモデルだけでなく、費用効率性と安定性を設計するハーネスエンジニアリングが必須だ」と説明した。
NAVERがAIタブに適用したハーネスエンジニアリングは、分業型スモールランゲージモデル(SLM)構造が特徴である。LLMにすべての作業を任せる代わりに、役割別に特化したSLMを組み合わせる方式だ。これにより装置運用コストを従来比で最大3倍削減し、応答速度は2倍以上改善する成果を収めたとNAVERは明らかにした。また分業型SLM構造は新しいSLMが開発されれば該当部分のみをプラグイン形態で置き換えることができ、サービスを中断せずに改善できると付け加えた。
◇ AI検索の次の段階は「写真で意図を読み行動」
NAVERはマルチモーダル技術を高度化し、さまざまな領域でマルチモーダル検索を披露する計画を紹介した。マルチモーダルは、画像をAIが理解できる表現(エンベディング)に変換し、テキストだけでなく画像や映像など多様な形態の情報を併せて理解・活用できるようにする技術を指す。
NAVERは2017年にスマートレンズを発売して画像検索サービスを披露して以降、技術高度化を通じてマルチモーダル検索の能力を蓄積した。NAVERはこれまでスマートレンズを通じて商品を認識して購入するユーザー体験の実装に注力してきたが、今後は探索、質疑、予約など実行までつながる連続的なマルチモーダル検索へ拡張する計画だ。ユン・サンドゥNAVER フューチャAIセンターリーダーは「今後NAVERのAIエージェントサービスはテキストだけでなく画像を通じても利用者の意図を理解し、実際の行動まで結び付ける方向に進化する」と述べた。NAVERは、1枚の画像と実際の会話パターンを併せて学習し文脈まで理解するマルチモーダルエンベディング技術MuCo(Multi-turn Contrastive Learning)が、世界最高権威のコンピュータビジョン学会CVPRで成果を認められたと付け加えた。