영화 '쥬라기 공원'에서 거대한 공룡이 걸어오면 관객은 자연스럽게 땅이 울리는 듯한 낮고 묵직한 소리를 떠올린다. 사람은 화면 속 사물의 모양뿐 아니라 크기와 무게, 움직이는 속도까지 함께 고려해 소리를 예상하기 때문이다. 국내 연구진이 이런 인간의 직관처럼 영상 속 물체의 물리적 특성을 계산해 실제에 가까운 소리를 만들어내는 인공지능(AI) 기술을 개발했다.
KAIST, 포스텍, 소니 AI 공동 연구팀은 영상 속 물리적 상황을 반영해 음향을 생성하는 AI 기술 '파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)'를 개발했다고 26일 밝혔다. 파바스는 영상 속 사물이 무엇인지뿐 아니라 얼마나 무겁고, 얼마나 빠르게 움직이는지를 추론해 소리 생성에 반영하는 기술이다.
기존 영상-음향 생성 AI는 주로 화면에 보이는 사물의 형태나 장면 정보를 바탕으로 소리를 만들었다. 하지만 같은 충돌 장면이라도 가벼운 물체가 천천히 부딪힐 때와 무거운 물체가 빠르게 부딪힐 때 나는 소리는 다르다. 기존 AI는 이런 질량과 속도 차이를 충분히 반영하지 못해 실제와 어긋난 효과음을 내는 경우가 있었다.
연구진은 AI가 영상 속 물체의 움직임과 주변 환경을 분석해 질량과 속도 같은 물리량을 추정하도록 설계했다. 이후 이 정보를 음향 생성 모델에 넣어 충돌 강도나 물체 무게에 따라 소리의 크기와 음색이 달라지도록 했다.
그 결과, 파바스는 물체가 부딪히거나 타격이 일어나는 장면에서 실제 환경과 유사한 소리를 생성하는 데 성공했다. 물체의 질량과 속도가 달라질 때도 이에 맞춰 소리의 크기와 음색이 바뀌었다. 단순히 화면과 어울리는 소리를 붙이는 수준을 넘어, 왜 그런 소리가 나야 하는지에 해당하는 물리적 원인을 반영한 것이다.
연구진은 이 기술이 영화와 게임 효과음 제작, 증강현실(AR), 가상현실(VR), 메타버스 콘텐츠 등에 활용될 것으로 기대한다. 로봇이 가상 환경에서 움직임을 학습하는 시뮬레이션에도 현실적인 음향 피드백을 제공할 수 있다. 오태현 KAIST 교수는 "기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면, 이번 연구는 AI가 물리량과 인과관계를 반영하도록 설계했다는 점에서 의미가 있다"며 "향후 텍스트, 영상, 음성 등 다양한 정보를 함께 이해하고 처리하는 차세대 멀티모달 AI의 기반 기술로 확장될 수 있다"고 했다.