국내 연구진이 해외 빅테크가 개발한 멀티모달 대형 언어모델보다 우수한 시각 성능의 인공지능(AI) 모델을 개발했다. 오픈AI의 GPT-4V, 구글과 딥마인드의 제미나이 프로처럼 비공개로 사용되는 고성능 모델과 달리 공개형으로 만들어 활용도도 크게 높였다.
노용만 한국과학기술원(KAIST) 전기및전자공학부 교수가 이끄는 연구진은 고성능의 멀티모달 대형 언어모델 ‘콜라보(CoLLaVO)’와 ‘모아이(MoAI)’를 개발했다고 20일 밝혔다.
멀티모달 대형 언어모델은 문자와 영상 데이터 같은 여러 유형의 데이터를 한 번에 처리할 수 있는 AI 모델이다. 입력한 문장에 따라 이미지를 만들거나 영상을 넣으면 음성으로 요약해주는 것처럼 다양한 작업에 사용할 수 있다. 다만 많은 양의 데이터 처리가 필요해 컴퓨팅 자원이 풍부한 해외 대기업이나 빅테크 위주로 개발이 이뤄지고 있고, 기업이 만든 모델은 대부분이 외부에 공개되지 않고 있다. 컴퓨팅 자원이 부족한 학계에서는 멀티모달 대형 언어모델 개발이 쉽지 않은 상황이다.
KAIST 연구진은 모델 학습에 필요한 데이터 양을 줄이고 고품질의 데이터셋 없이도 고성능을 낼 수 있는 ‘콜라보’와 ‘모아이’ 모델을 개발해 이 같은 문제를 해결했다.
콜라보는 이미지 이해 능력을 개선하는 기술이다. 이미지에 포함된 정보를 배경과 물체 단위로 분할하고 각각의 정보를 모델에 입력해 넣어주는 ‘크레용 프롬프트’ 방식으로 성능을 높였다. 기존 공개형 멀티모달 대형언어모델이 물체에 대한 이해 능력이 떨어지는 점을 보완하기 위해 도입했다. 학습한 정보는 서로 다른 파라미터(변수)로 학습하는 ‘듀얼 큐로라’ 기술도 적용했다. 콜라보는 멀티모달 모델의 성능을 평가하는 벤치마크(평가)에서 오픈AI의 비공개 모델 GPT-4V, 구글과 딥마인드가 개발한 제미나이 프로보다 높은 정확도를 보였다.
모아이는 인간이 사물을 판단할 때 물체의 존재, 상호작용, 배경·문자에 대한 정보를 파악하는 방식을 모방해 만들어졌다. 기존 멀티모달 대형언어모델은 픽셀 수준에서 자세한 분석이 가능하지만 종합적인 이해가 부족하다는 점을 해결하기 위한 방식이다.
연구진은 인지과학적인 요소를 모델에 적용하기 위해 ‘화면 분할’ ‘물체 검출기’ ‘상황그래프 생성’ ' 글자인식’ 등 모델 네 가지를 종합적으로 사용했다. 네 모델의 결과를 모두 언어로 변환한 후 이를 언어모델에 입력해 학습했다. 시각 능력을 높여 이미지를 AI 모델이 이해하는 과정을 이해할 수 있게 했다.
노 교수는 “이번에 개발한 모델은 AI 플랫폼 기업 허깅페이스에서 선정하는 ‘화제의 논문(Huggingface Daily Papers)’에 추천됐다”며 “세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시해 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.
콜라보는 자연어 처리(NLP) 분야 국제 학회 ‘ACL 파인딩스 2024′에서 지난 5월 16일 승인 받았고, 모아이는 컴퓨터 비전 분야 국제 학회 ‘ECCV 2024′의 승인 결과를 기다리고 있다.