KT는 고려대와 공동 개발한 멀티모달 대형 언어 모델(MLLM) 벤치마크 KSAFE-MM을 공개했다고 16일 밝혔다.

KSAFE-MM은 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성된다. 총 1만4135개의 평가 샘플로 구성돼 국내 최대 규모 한국어 멀티모달 안전성 평가 데이터셋이다. 구글 젬마(Gemma), 네이버 하이퍼클로바X 등 12개 글로벌 멀티모달 대형 언어 모델(MLLM)을 검증했다.

KT 직원들이 KSAFE-MM을 개발하는 모습. /KT 제공

특히 자동화한 범용 파이프라인(Pipeline: 데이터 수집부터 배포까지 아우르는 작업 프로세스)을 제시했다는 점이 특징이다. 기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율도 높지 않다.

KSAFE-MM은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 쿼리(Query·사용자가 AI 모델에 입력하는 질문) 생성, 합성 이미지 생성, 인공지능(AI)의 안전 장치나 윤리 제한을 교묘하게 우회하도록 변형된 탈옥 쿼리(Jailbreak Query) 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다.

이는 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 표준 프레임워크를 제공해 비용은 낮추고 효율을 높일 수 있다는 의미다. KT·고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험(JSAFE-MM-C)을 통해 전 세계 어느 문화권에도 즉시 적용 가능함을 실증했다.

KT는 연구 결과 및 벤치마크를 아카이브(arXiv)와 허깅페이스(Hugging Face)에 공개했다.