カカオがマルチモーダル(Multinodal)人工知能(AI)技術の研究成果を公開した。会社側は「人のように見て、聞き、話し、韓国語と韓国文化を最もよく理解する高度化されたマルチモーダルだ」と紹介した。
カカオは12日、テックブログを通じて、韓国的文脈の理解に最適化した統合マルチモーダル言語モデル「カナナ(Kanana)-o」と、マルチモーダル埋め込みモデル「カナナ-v-インベディング(Kanana-v-embedding)」の開発過程と性能を発表した。
まず「カナナ-o」は、テキストと音声、画像を同時に理解しリアルタイムで回答する統合マルチモーダル言語モデルである。グローバルモデルと比べて韓国語文脈の理解で優れた性能を備え、人のように自然で豊かな表現力を持つことが特徴だと会社側は説明した。カナナ-oは5月に初めて性能が公開された後、命令遂行能力が改善された。
カカオは既存のマルチモーダルモデルがテキスト入力では強みを示す一方、音声対話では回答がやや単純になり推論能力が落ちるという限界に着目したという。会社はこれを補うためカナナ-oの指示遂行能力を高度化し、ユーザーの隠れた意図や複雑な要件まで把握できるよう改善した。併せて自社で構築したデータセットで学習を進め、各種モダリティの入出力に対しても単純な質疑応答を超え、要約、感情および意図の解釈、エラー修正、形式変換、翻訳など多様なタスクを実行できるよう性能を引き上げたという。
また、高品質音声データとDPO(Direct Preference Optimization・直接選好最適化)技術を適用し、抑揚・感情・呼吸などを精緻に学習させることで、喜び・悲しみ・怒り・恐怖など状況別の生々しい感情はもちろん、微細な音色・口調の変化に応じた感情表現能力まで向上させたとカカオは説明した。ホストとゲストがやり取りする「ポッドキャスト」形式のデータセットを構築し、途切れなく自然に続くマルチターン(Multi-turn)対話も可能になったという。
カカオはベンチマーク(性能検証)評価の結果、カナナ-oが英語音声の性能でGPT-4oと同水準を、韓国語の音声認識・合成、感情認識能力では大幅に高い水準を記録したと明らかにした。
カカオは今後、より自然な同時通話(Full-duplex)と状況に合ったサウンドスケープ(Soundscape・音環境)をリアルタイム生成できる進化したモデルへと発展させる予定である。
同時に公開されたカナナ-v-インベディングは、画像ベース検索の中核技術で、テキストと画像を同時に理解して処理できる韓国型マルチモーダルモデルである。テキストで画像を検索したり、ユーザーが選んだ画像に関連する情報を検索したり、画像を含む文書検索などを支援する。
特に、このモデルは実サービス適用を目標に開発された。「景福宮」や「鯛焼き」に相当する「プンオパン」のような固有名詞はもちろん、「ハメルトンチーズ」のように誤字が含まれた単語も文脈を把握して正確な画像を見つけ出すという。また「韓服を着て撮った集合写真」のような複合的な条件も正確に理解し、条件の一部にしか該当しない写真をふるい落とせる弁別力を備えたと会社側は説明した。
カナナ-v-インベディングは現在、カカオ内部で広告クリエイティブの類似度を分析・審査するシステムに適用されている。今後はビデオや音声へ範囲を拡大し、より多様なサービスにも適用する計画である。
キム・ビョンハクカカオ・カナナ成果リーダーは「カカオの自社AIモデルであるカナナは、単なる情報の羅列を超え、ユーザーの感情を理解し親しみやすく自然に対話できるAIとなるよう、韓国的文脈の理解と表現力を高めていきたい」と述べ、「実際のサービス環境を通じてユーザーの日常におけるAI技術の体験を創出し、人のように相互作用できるAIの実装に注力していく」と語った。