비전언어모델 작동 예시./엔씨소프트 제공

엔씨소프트(NC)가 뛰어난 한국어 성능을 자랑하는 중소형 오픈소스 비전언어모델(비전언어모델, VLM) '바르코 비전(VARCO-VISION)'과 한국어 멀티모달 벤치마크 5종을 4일 공개했다고 밝혔다.

비전언어모델은 텍스트와 이미지를 함께 처리할 수 있는 언어모델로, 최근 모달리티 확장 연구와 함께 주목받고 있다. 하지만 기존 오픈소스 모델 대부분이 영어·중국어 기반으로 개발돼 한국어 지원이 부족한 상황에서, 엔씨소프트는 한국어 성능을 대폭 강화한 '바르코 비전'을 통해 국내 기업의 의존도를 낮추고 새로운 인공지능(AI) 활용 가능성을 제시했다는 게 회사 측 설명이다.

'바르코 비전'은 한글과 영어 프롬프트를 모두 처리하며, 이미지 입력도 이해할 수 있는 중소형 모델이다. 동급 모델 중 한국어 부문에서 최고 성능을 기록하며, ▲글자인식(OCR) ▲사물 위치 검출(그라운딩) ▲이미지 질의응답 ▲이미지 설명 생성 등 다양한 비전 태스크에서 우수한 결과를 제공한다. 이를 통해 이미지-텍스트 작업과 텍스트 작업을 단일 모델로 처리할 수 있어, AI 서비스 개발 기업과 콘텐츠 제작 기업에 효율적 솔루션을 제공한다.

또한, 엔씨소프트는 바르코 비전의 성능을 검증하고 한국어 AI 연구를 지원하기 위해 멀티모달 벤치마크 5종도 공개했다. 이는 영미권에서 사용되는 대표적인 객관식 벤치마크(MMBench, SEED-Bench, MMStar)와 주관식 벤치마크(LLava-in-the-wild)를 기반으로 한국어에 특화된 새로운 기준을 추가한 것으로, 한국어 문서와 표, 차트 이해능력을 평가하는 '케이 디티씨 벤치(K-DTCBench)'를 포함하고 있다.

이연수 엔씨 리서치(NC Research) 본부장은 "바르코 비전과 벤치마크 5종 공개는 멀티모달 AI 분야에서 엔씨소프트의 선도적 위치를 증명하는 성과"라며 "앞으로 비전언어모델의 접목 분야를 오디오, 비디오로 확대하고 콘텐츠 제작 지원 기능을 강화해 다양한 산업에서 활용할 수 있도록 성능을 지속적으로 높여갈 것"이라고 말했다.