S2W 제공

빅데이터 분석 인공지능(AI) 기업 S2W는 대규모언어모델(LLM) 토크나이저 구조의 취약점을 규명한 한국과학기술원(KAIST)과의 공동연구 논문이 세계 최고 권위 자연어처리 학회 '자연어처리방법론학회(EMNLP) 2025'에 채택됐다고 10일 밝혔다.

S2W는 2022년부터 4년 연속으로 AI 분야 주요 국제 학회에 논문을 게재했다. 이번 연구는 '바이트 레벨 토크나이저 내 불완전 토큰의 취약점을 드러낸 비정상적 바이그램'이라는 제목으로, LLM의 핵심 구성요소인 토크나이저가 비영어권 언어에서 환각을 유발할 수 있다는 점을 분석했다.

연구진은 토크나이저가 문자를 분절해 처리하는 과정에서 비영어권 언어의 문자가 완전히 해석되지 못하고 '불완전 토큰'으로 남는 현상을 확인했다. 영어는 한 글자가 1바이트로 구성되지만, 한국어·일본어·중국어 등은 한 글자가 여러 바이트로 표현돼 '바이트 페어 인코딩(BPE)' 기반 토크나이저에서 글자 중간이 잘려 의미가 왜곡될 수 있다는 점을 지적했다.

이 같은 구조적 한계는 비영어권 언어에서 모델의 문맥 해석 실패나 의미 왜곡을 초래하며, 환각 발생률을 높이는 요인으로 작용할 수 있다고 분석했다.

박근태 S2W 최고기술책임자(CTO)는 "이번 연구는 자국 언어와 데이터를 기반으로 AI를 개발·운영해야 하는 '소버린 AI' 논의에 참고할 만한 근거를 제시했다"며 "S2W는 신뢰성 있는 AI 구축을 위한 연구를 지속할 것"이라고 말했다.