지난 18일(현지시간) 캐나다 밴쿠버 컨벤션센터에서 제로샷 이미지 캡셔닝을 주제로 한 ‘NICE(New Frontiers for Zero-shot Workshop)’가 열렸다. /LG AI연구원

국내 연구진이 처음 본 사진을 사람처럼 표현하는 인공지능(AI)을 겨루는 국제 대회에서 2등부터 4등까지 상위권을 휩쓸었다.

LG AI연구원은 18일(현지 시각) 캐나다 밴쿠버 컨벤션 센터에서 서울대 AI대학원, 사진 아카이브서비스 셔터스톡과 함께 이미지 캡셔닝(자막넣기)을 주제로 한 ‘뉴프론티어제로샷(NICE)’ 워크숍을 열고 이런 내용의 LG 글로벌 AI 챌린지’ 대회 결과를 공개했다.

이날 행사는 세계 최대 컴퓨터 비전 학회인 ‘컴퓨터 비전 및 패턴 인식(CVPR) 2023′ 개최를 앞두고 LG AI연구원이 개최했다.

LG AI연구원은 이날 워크숍에서 최초로 ‘캡셔닝 AI’을 비롯해 제로샷 이미지 캡셔닝에 대한 그동안의 연구 성과를 공개했다. 제로샷 이미지는 AI가 사전에 학습하지 않고 예측해야 하는 이미지를 뜻하는 용어다. 이미지 캡셔닝은 AI가 이미지를 구성하는 객체들과 관계를 인식해 자연어로 설명하는 것을 말한다. 고품질의 이미지와 텍스트 데이터를 동시에 학습시켜 초거대 AI모델을 이용해야 이미지 캡셔닝이 가능하다.

LG AI연구원이 이번에 공개한 캡셔닝AI는 학습한 적이 없는 이미지도 스스로 캡션을 만들 수 있는 생성형 AI다. AI가 사람처럼 이미지나 영상의 의미를 유추하면서 읽어내는 기술이다.

LG AI연구원은 이날 워크숍에서 지난 2월부터 4월까지 진행한 ‘LG 글로벌 AI 챌린지’ 대회 결과를 공개했다. 전 세에서 142개 연구팀이 참여한 이 대회에서 1위는 중국 난징과기대 연구팀에게 돌아갔다. 그 뒤를 이어 2위부터 4위까지 모두 한국 연구팀이 차지했다.

‘LG 글로벌 AI 챌린지’에서 2위를 차지한 오영택 KAIST 연구원(왼쪽에서 3번째) 등 연구팀이 이경무 서울대 석좌교수(왼쪽에서 4번째)와 기념사진을 찍고 있다. /LG AI연구원

2위를 차지한 한국과학기술원(KAIST)의 오영택 전기및전자공학부 연구원(박사과정)은 “LG AI연구원이 첫 진행한 ‘LG 글로벌 AI 챌린지’에서 인공지능이 기존 이미지 데이터를 참조할 때 부하가 걸리지 않도록 최적화하는 데 초점을 맞춰 좋은 결과를 낼 수 있었다”며 “최근 이미지를 보고 이를 글로 묘사하는 ‘비전 인식’ 분야에 관심이 집중되고 있다”고 설명했다. 한국의 카카오브레인은 3위, 우리은행 연구팀은 4위를 각각 차지했다.

LG AI연구원과 함께 이번 대회를 주관한 셔터스톡은 저작권 문제 없이 사용할 수 있는 고품질 데이터셋 2만6000개를 무료로 제공했다. 이 가운데 사람이 포함된 이미지가 73%에 이른다.

알레산드라 살라(Alessandra Sala) 셔터스톡 AI·데이터사이언스 총괄책임자(디렉터)는 “AI모델을 만들 때 가장 중요한 것은 데이터를 수집하고 고품질화하는 작업”이라며 “이미지 캡셔닝 AI모델에는 편견과 고정관념을 배제하고 다양성·형평성·포용성을 가지도록 해야 한다”고 설명했다.

김승환 LG AI연구원 비전랩장(상무)은 “올해는 일반 이미지를 주로 썼다면 내년엔 다양한 분야에 활용되는 이미지 등 실제로 활용할 수 있는 형태까지 확장하겠다”며 “이미지 이해 연구에서 연구원의 리더십을 확장해 나갈 것”이라고 말했다.