한국전자통신연구원(ETRI) 연구진이 '실사 인물 발화 영상 생성 프레임워크 기술'에 대해 논의하고 있다./ETRI

한국전자통신연구원(ETRI)이 단 한 장의 인물 사진만으로 실제 사람처럼 자연스럽게 말하는 인공지능(AI) 아바타를 구현하는 데 성공했다고 15일 밝혔다.

기존의 AI 음성 비서나 내비게이션은 단순히 명령을 인식하고 수행하는 수준에 그쳤다. 하지만 이번에 개발한 기술은 입 모양과 표정을 정교하게 구현해 실제 사람과 대화하는 듯한 경험을 제공한다. 예를 들어, 차량 내 AI 운전기사가 운전자와 자연스럽게 대화를 하거나, 보행자와 눈을 마주치고 소통하는 등의 시나리오가 가능해진다.

연구진은 입술, 턱처럼 발화와 밀접한 얼굴 부위를 선별적으로 학습하고 합성하는 독자 알고리즘을 기반으로 AI 아바타를 구현했다. 이 방식을 통해 불필요한 데이터 학습을 줄이고, 입 모양, 치아, 피부 주름 등 세밀한 표현을 더욱 정교하게 구현할 수 있었다.

ETRI는 이번 기술이 CVPR, AAAI와 같은 세계 주요 학술대회에서 발표된 기술들보다도 선명도와 자연스러움, 입술 동기화 측면에서 우수한 성능을 보였다고 밝혔다.

이 기술은 자율주행차 외에도 키오스크, 은행 창구, 뉴스 진행, 광고 모델 등 다양한 산업 분야에서 활용될 수 있다. 단순한 정보 전달을 넘어, 사람과 감정적으로 교감할 수 있는 디지털 휴먼 산업의 핵심 기술로 자리 잡을 가능성이 크다.

윤대섭 ETRI 모빌리티UX연구실장은 "모빌리티 기술이 발전할수록 노인이나 사회적 약자들이 소외될 수 있다"며 "AI 아바타 기술이 모두가 쉽게 이용할 수 있는 스마트 모빌리티 서비스로 발전하길 바란다"고 전했다.

연구책임자인 최대웅 ETRI 선임연구원도 "AI 아바타가 실제 사람처럼 자연스럽게 대화하고 움직일 수 있도록 기술을 더 고도화할 계획"이라며 "앞으로는 주문, 상담 등에서 일부 인력을 대체할 수 있을 정도로 상호작용을 구현할 것"이라고 말했다.

현재 이 기술은 ETRI 기술이전 사이트에 '실사 인물 발화 영상 생성 프레임워크 기술'로 등록돼 있다. 연구진은 다양한 산업 분야에서의 상용화를 위해 기술이전과 사업화 전략도 적극 추진할 계획이다.