LG AI研究院が9日、テキストと画像を同時に理解し推論するマルチモーダルAIモデル「エクサワン(EXAONE)4.5」を公開した。

エクサワン4.5は、LG AI研究院が2021年12月に韓国初のマルチモーダルAIモデル「エクサワン1.0」を開発して蓄積した技術力を土台に、自社開発のビジョンエンコーダー(Vision Encoder)と大規模言語モデル(LLM)を単一の構造で統合したビジョン・ランゲージモデル(VLM)である。

Exaone 4.5、世界同水準モデルとSTEMベンチマークで性能比較

エクサワン4.5の特徴は、産業現場で実際に直面する複雑な非定型データを読み解き分析する「実戦型推論能力」だ。単に写真の中の物体を認識する水準を超え、複雑な設計図面や財務諸表、各種技術契約書に含まれるテキストと視覚情報を有機的に結び付けて文脈を把握する。AIが仮想世界のデータを越えて実際の産業現場の難題を解決できる「フィジカル・インテリジェンス」へ進化するための核心段階である。

性能評価の結果、エクサワン4.5はAIの視覚処理と推論能力を測定する13個の指標の平均スコアで、OpenAIの「GPT-5 mini」やAnthropicの「クロード・ソネット4.5」などグローバル競合モデルを上回った。とりわけSTEM(科学・技術・工学・数学)性能指標で77.3点を記録し、グローバル最高水準の競争力を立証した。コーディング性能指標や複雑なチャート分析能力でもGoogleの最新モデルを凌駕する成果を示した。

効率性の面でも成果を上げた。エクサワン4.5はパラメーター規模を従来モデルの7分の1水準である330億個に削減したにもかかわらず、ハイブリッド・アテンション構造などの高速推論技術を適用し、同等水準のテキスト推論性能を維持した。対応言語も韓国語と英語に加え、スペイン語、日本語、ベトナム語など6言語に拡張された。

LG AI研究院はAIエコシステム拡張のため、エクサワン4.5をグローバルプラットフォームのHugging Faceに研究および教育目的で公開した。韓国のAIファウンデーションモデルプロジェクトである「K-エクサワン」のモダリティ拡張のためである。今後は音声と映像はもちろん、物理的環境まで理解し判断する「フィジカル・インテリジェンス」へ発展させる構想だ。

続いて、自社設計のAIリスク分類体系を基盤に、韓国の歴史と文化的文脈を深く理解するモデルへ進化させるため、関係機関と高品質データ学習の協業を継続する方針である。

イ・ジンシクLG AI研究院エクサワンラボ長は「エクサワン4.5はテキストを越え視覚情報まで完全に理解するマルチモーダル時代への進入を告げる信号弾だ」と述べ、「今後、理解範囲を音声と映像、さらに物理的環境まで拡張し、産業現場で実質的に判断し行動するAIを作っていく」と語った。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。