영화 '쥬라기 공원'에서 거대한 공룡이 걸어오면 관객은 자연스럽게 땅이 울리는 듯한 낮고 묵직한 소리를 떠올린다. 사람은 화면 속 사물의 모양뿐 아니라 크기와 무게, 움직이는 속도까지 함께 고려해 소리를 예상하기 때문이다. 국내 연구진이 이런 인간의 직관처럼 영상 속 물체의 물리적 특성을 계산해 실제에 가까운 소리를 만들어내는 인공지능(AI) 기술을 개발했다.

KAIST, 포스텍, 소니 AI 공동 연구팀은 영상 속 물리적 상황을 반영해 음향을 생성하는 AI 기술 '파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)'를 개발했다고 26일 밝혔다. 파바스는 영상 속 사물이 무엇인지뿐 아니라 얼마나 무겁고, 얼마나 빠르게 움직이는지를 추론해 소리 생성에 반영하는 기술이다.

기존 영상-음향 생성 AI는 주로 화면에 보이는 사물의 형태나 장면 정보를 바탕으로 소리를 만들었다. 하지만 같은 충돌 장면이라도 가벼운 물체가 천천히 부딪힐 때와 무거운 물체가 빠르게 부딪힐 때 나는 소리는 다르다. 기존 AI는 이런 질량과 속도 차이를 충분히 반영하지 못해 실제와 어긋난 효과음을 내는 경우가 있었다.

연구진은 AI가 영상 속 물체의 움직임과 주변 환경을 분석해 질량과 속도 같은 물리량을 추정하도록 설계했다. 이후 이 정보를 음향 생성 모델에 넣어 충돌 강도나 물체 무게에 따라 소리의 크기와 음색이 달라지도록 했다.

파바스를 개발한 공동연구팀. (왼쪽부터)포항공과대학 오현빈 연구원, 소니 AI 타키다 유타·우에사카 토시미츠 연구원, KAIST 오태현 교수, 소니 AI 미츠후지 유키 연구원. /KAIST 제공

그 결과, 파바스는 물체가 부딪히거나 타격이 일어나는 장면에서 실제 환경과 유사한 소리를 생성하는 데 성공했다. 물체의 질량과 속도가 달라질 때도 이에 맞춰 소리의 크기와 음색이 바뀌었다. 단순히 화면과 어울리는 소리를 붙이는 수준을 넘어, 왜 그런 소리가 나야 하는지에 해당하는 물리적 원인을 반영한 것이다.

연구진은 이 기술이 영화와 게임 효과음 제작, 증강현실(AR), 가상현실(VR), 메타버스 콘텐츠 등에 활용될 것으로 기대한다. 로봇이 가상 환경에서 움직임을 학습하는 시뮬레이션에도 현실적인 음향 피드백을 제공할 수 있다. 오태현 KAIST 교수는 "기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면, 이번 연구는 AI가 물리량과 인과관계를 반영하도록 설계했다는 점에서 의미가 있다"며 "향후 텍스트, 영상, 음성 등 다양한 정보를 함께 이해하고 처리하는 차세대 멀티모달 AI의 기반 기술로 확장될 수 있다"고 했다.