LG AI연구원이 자체 개발한 초거대 인공지능(AI) 엑사원으로 생성한 이미지 캡션. /LG

LG그룹 산하 초거대 인공지능(AI) 개발 조직인 LG AI연구원이 ‘이미지 캡셔닝’ 기술 분야로 연구 영역을 넓힌다. 오픈AI가 최근 자연어 분야에 큰 반향을 일으킨 챗GPT를 내놓은 것처럼 LG AI연구원이 이미지 분야의 한 획을 그을 AI를 탄생시킬 수 있을지 주목된다.

3일 정보기술(IT) 업계에 따르면 LG AI연구원은 이달부터 4월 말까지 전 세계 AI 연구자를 대상으로 ‘LG 글로벌 AI 챌린지’를 개최한다. 대회는 서울대 AI대학원, 이미지 판매업체 셔터스톡과 공동 주관한다. LG AI연구원은 서울대 AI연구원과 초거대 AI ‘엑사원’을 공동 연구하고, 셔터스톡과는 이미지 캡셔닝 AI의 상용화 서비스를 준비하고 있다.

주제는 ‘제로샷 이미지 캡셔닝’이다. 제로샷 이미지 캡셔닝은 AI가 처음 본 사물이나 동물, 풍경 등 다양한 이미지를 기존에 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 글로 표현하는 기술이다. 토끼를 본 적 없는 사람이 토끼와 고양이가 함께 있는 것을 보고 각각의 공통점과 차이점을 바탕으로 ‘토끼도 털은 있지만, 고양이와는 다르게 귀가 길고, 뒷다리가 발달했다’고 설명하는 식이다.

LG AI연구원은 제로샷 이미지 캡셔닝 기술을 고도화해 방대한 분량의 이미지 데이터에 자동으로 사진설명(캡션)과 키워드를 생성하는 AI를 개발할 계획이다. 여기에 의학 전문 데이터를 추가로 학습시켜 의학 영상 분석 사업에 진출할 기회도 엿보고 있다. 김승환 LG AI연구원 비전랩장은 “LG AI연구원은 생성형 AI뿐 아니라, 객체를 인식하는 기술 수준을 넘어 인간 수준으로 영상까지 이해하는 AI로 퀀텀 점프할 수 있는 가능성을 확인했다”고 전했다.

초거대 인공지능(AI)의 이미지 캡셔닝 과정. /LG

업계에서는 LG그룹이 제로샷 이미지 캡셔닝 기술을 자율주행차에 적용할 수 있다는 기대도 나온다. 물체를 보고 사람인지 동물인지를 즉시 판단할 수 있을 정도로 AI가 발전하면 자율주행 사고 비율을 현저히 낮출 수 있을 것이란 분석이다. 현재 엔비디아가 머신러닝을 통한 이미지 인식 기술로 자율주행차를 개발하고 있지만, 제로샷 이미지 캡셔닝은 이보다 한 걸음 더 나아간 기술인만큼 경쟁력이 있다는 평가다.

학계의 반응도 긍정적이다. 이경무 서울대 AI대학원 석좌교수는 “이미지 캡셔닝은 영상에 나오는 객체들의 관계부터 상황과 문맥까지 이해해 인간의 언어로 표현하고 설명하게 하는 것으로, AI가 인간의 지능에 얼마나 가까워졌는지 보여주는 척도다”라고 설명했다. 그는 LG AI연구원이 오는 6월 컴퓨터 비전 분야 세계 최고 권위 학회인 ‘CVPR 2023′에서 제로샷 이미지 캡셔닝을 주제로 워크숍을 여는 점을 들어 “우리나라 AI 역량이 이미 세계적인 수준에 도달했음을 의미한다”고도 했다.

LG그룹은 제로샷 이미지 캡셔닝 기술을 상용화해 자사 AI 생태계를 더욱 확장할 방침이다. LG그룹은 이미 AI를 다양한 사업 영역에 활용하고 있다. LG전자는 국가별·지역별 제품 판매 수요를 예측하는 데에, LG이노텍은 카메라 렌즈와 센서의 중심을 맞추는 공정에 AI 기술을 도입했다.

하지만 최종 목표는 따로 있다. 바로 분야별로 ‘전문가 AI’를 만들어 산업 현장에 적용하는 것이다. LG AI연구원이 제로샷 이미지 캡셔닝 기술을 ‘의학 전문가 AI’를 개발하는 데 쓸 수 있다고 밝힌 것도 이 맥락에서다. LG AI연구원은 LG화학 서비스에 접목하기 위해 화학·바이오 분야의 전문 문헌을 탐색하고 의미 있는 실험 결과를 발굴하는 AI도 개발 중이다.

업계 관계자는 “전문가 AI는 사업적 가치가 크다”며 “분야별로 축적된 데이터셋을 확보하는 게 관건이 될 것”이라고 했다.