Kraftonが人工知能(AI)モデルブランド「ラオン(Raon)」を公開したと2日明らかにした。
ラオンは「楽しさ」を意味する固有語「ラオン」に着想を得た名称で、AI技術を通じてゲームの本質的な楽しさを創出するというKraftonの哲学を反映したと会社側は説明した。
今回公開されたモデルは、音声対応大規模言語モデル(LLM)「ラオンスピーチ(Raon-Speech)」、リアルタイム音声対話モデル「ラオンスピーチチャット(Raon-SpeechChat)」、テキスト−音声変換(TTS)モデル「ラオンオープンTTS(Raon-OpenTTS)」と、ビジョンエンコーダー(画像特徴抽出モデル)「ラオンビジョンエンコーダー(Raon-VisionEncoder)」だ。
Kraftonは音声と視覚情報を網羅する4つのモデルを、世界最大のAIモデルプラットフォームであるHugging Faceにオープンソースとして公開した。会社関係者は「今後ラオンAIモデルブランドを中心にグローバルなAI技術競争力を強化する」と述べた。
「ラオンスピーチ」は音声の理解と生成が可能な音声言語モデルで、90億(9B)パラメーター規模だ。Kraftonによると、「ラオンスピーチ」は音声テキスト変換、テキスト音声変換、音声ベースの質疑応答など7つの核心タスクと40種のベンチマークを総合評価した結果、10B以下級の公開音声言語モデルの中で英語と韓国語の性能がグローバル1位を記録した。
「ラオンスピーチチャット」は、ユーザーとモデルが会話中に自由に割り込めるリアルタイム双方向通信技術を適用した。国内で発表された初のリアルタイム双方向音声モデルだと会社側は説明した。
「ラオンオープンTTS」は公開音声データのみで学習されたテキスト−音声変換モデルだ。「ラオンビジョンエンコーダー」は画像をAIが理解可能な情報に変換するが、公開データのみを活用し、事前学習済みモデルを使わずに最初から自社で学習した点が特徴だ。
イ・ガンウクKrafton最高人工知能責任者(CAIO)は「大規模学習データと中核モデルをオープンソースで共有し、研究者と開発者が自由に活用できるようにして、マルチモーダル技術の発展と韓国のAIエコシステムの成長に寄与することを期待する」と述べた。