S2W提供

ビッグデータ解析の人工知能(AI)企業S2Wは、大規模言語モデル(LLM)のトークナイザー構造の脆弱性を究明した韓国科学技術院(KAIST)との共同研究論文が、世界で最も権威ある自然言語処理学会である「自然言語処理方法論学会(EMNLP)2025」に採択されたと10日に明らかにした。

S2Wは2022年から4年連続でAI分野の主要国際学会に論文を掲載している。今回の研究は「バイトレベルトークナイザー内の不完全トークンの脆弱性を露呈する異常なバイグラム」というタイトルで、LLMの中核構成要素であるトークナイザーが非英語圏言語で幻覚を誘発し得る点を分析した。

研究陣は、トークナイザーが文字を分節して処理する過程で、非英語圏言語の文字が完全に解釈されず「不完全トークン」として残る現象を確認した。英語は1文字が1バイトで構成される一方、韓国語・日本語・中国語などは1文字が複数バイトで表現されるため、バイトペアエンコーディング(BPE)ベースのトークナイザーでは文字の中間が切断され、意味が歪曲され得る点を指摘した。

このような構造的限界は、非英語圏言語においてモデルの文脈解釈の失敗や意味の歪曲を招き、幻覚発生率を高める要因として作用し得ると分析した。

パクグンテS2W最高技術責任者(CTO)は「今回の研究は、自国の言語とデータを基盤にAIを開発・運用すべきとする『ソブリンAI』の議論に参考となる根拠を示した」と述べ、「S2Wは信頼性あるAI構築のための研究を継続する」と語った。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。