LG(003550)그룹 AI연구원은 18일(현지 시각) 캐나다 밴쿠버에서 열린 세계 최대 컴퓨터 비전 학회 'CVPR(Computer Vision and Pattern Recognition) 2023′에서 '캡셔닝 AI(Captioning AI)'를 최초 공개했다고 밝혔다. 캡셔닝 AI는 '인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 AI'로, 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 자동 생성한다.

LG AI연구원이 개발한 이미지 상의 다양한 요소와 특징을 인식해 설명글과 키워드를 생성하는 캡셔닝 AI(Captioning AI). /LG그룹 제공

LG AI연구원은 AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 '제로샷 이미지 캡셔닝(Zero-shot Image Captioning)' 기술을 적용했다. 이는 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 하는 기술이다.

LG의 캡셔닝 AI를 사용하면 대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있다. 캡셔닝 AI는 평균적으로 5개 문장과 10개의 키워드를 10초 내에 생성한다. 이미지 범위를 1만장으로 확장하면 2일 이내에 작업을 끝낼 수 있어 빠른 시간 내에 맞춤형 이미지 검색·관리 시스템을 구축할 수 있다는 설명이다.

LG AI연구원은 이미지와 영상 등 시각 콘텐츠가 매일 수십만 개 이상 새롭게 추가되는 세계 최대 플랫폼 기업 '셔터스톡'과 협력해 캡셔닝 AI를 개발했다. 양사는 실용적이면서도 신뢰할 수 있는 AI 모델 개발을 위해 학습 데이터의 편향성·선정성 등 AI 윤리 검증을 진행하고, 저작권 투명성도 확보했다고 밝혔다.

LG AI연구원은 이날 '캡셔닝 AI'의 기반 기술인 '제로샷 이미지 캡셔닝'을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍도 진행했다. 이번 워크숍에서는 상반기에 진행한 'LG 글로벌 AI 챌린지' 시상식도 열렸는데, 총 142개 연구팀이 참여한 이번 챌린지에서 1, 2위를 차지한 난징과기대, 카이스트(KAIST) 소속 참가자들이 워크숍에서 연구 성과를 발표했다.