오태현 카이스트 전산학부 교수 연구진이 포스텍, 소니 인공지능(AI) 공동 연구진과 함께 영상 속 물리적 상황을 반영해 소리를 생성하는 AI 기술 '파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)'를 개발했다고 26일 밝혔다.
영화 속 거대한 공룡이 걸어오는 장면을 보면 관객은 자연스럽게 묵직한 발소리와 땅이 울리는 듯한 저주파음을 떠올린다. 사람은 화면 속 사물의 모양뿐 아니라 크기, 무게, 움직임의 속도까지 함께 고려해 소리를 예상하기 때문이다.
이번 기술은 영상에 직접 표시되지 않는 물체의 질량과 속도 같은 물리 정보를 AI가 추론하도록 설계됐다. 연구진은 AI가 주변 환경, 물체의 움직임, 충돌 상황 등을 분석해 이러한 정보를 추정하고, 이를 소리 생성 과정에 반영하도록 했다.
검증 결과, 파바스는 충돌이나 타격처럼 물리적 상호작용이 일어나는 장면에서 실제 환경과 유사한 소리를 만들었다. 특히 물체의 질량과 속도가 달라질 때 소리의 크기와 음색도 함께 변화해 기존 방식보다 현실감을 높였다.
오태현 교수는 "이번 연구는 AI가 물리량과 인과관계를 이해하도록 설계했다는 점에서 의미가 있다"며 "향후 텍스트, 영상, 음성 등 여러 정보를 함께 처리하는 차세대 멀티모달 AI 기술로 확장될 수 있을 것"이라고 말했다.
연구 결과는 컴퓨터 비전 분야 학술대회 '컴퓨터 비전 및 패턴 인식 콘퍼런스(CVPR) 2026'에서 구두 발표 논문으로 채택됐으며, 오는 6월 6일 발표될 예정이다.
참고 자료
arxiv(2025), DOI: https://arxiv.org/abs/2512.08282