KAISTら映像物理推定で音生成AI開発

6600万年前に小惑星が地球へ衝突する様子の想像図。米フロリダ・アトランティック大学提供

カ・オテヒョンKAIST電算学部教授の研究チームがPOSTECH、ソニーの人工知能（AI）共同研究チームとともに、映像内の物理的状況を反映して音を生成するAI技術「パバス（PAVAS・Physics-Aware Video-to-Audio Synthesis）」を開発したと26日に明らかにした。

映画で巨大な恐竜が歩み寄る場面を見れば、観客は自然に重い足音や地面が震えるような低周波音を思い浮かべる。人は画面上の物体の形状だけでなく、大きさ、重さ、動きの速度まで併せて考慮して音を予想するためである.

今回の技術は、映像に直接表示されない物体の質量や速度といった物理情報をAIが推論するよう設計した。研究チームは、AIが周辺環境、物体の動き、衝突状況などを分析してこれらの情報を推定し、それを音生成プロセスに反映するようにした。

検証の結果、パバスは衝突や打撃のように物理的相互作用が起きる場面で、実環境に近い音を生成した。特に物体の質量と速度が変化すると、音量や音色もともに変わり、従来方式よりも現実感を高めた。

カ・オテヒョン教授は「今回の研究は、AIが物理量と因果関係を理解するよう設計した点で意義がある」と述べ、「今後、テキスト、映像、音声など複数の情報を同時に処理する次世代マルチモーダルAI技術へ拡張できるだろう」と語った。

研究成果はコンピュータービジョン分野の学術大会「コンピュータービジョンおよびパターン認識カンファレンス（CVPR）2026」で口頭発表論文として採択され、6月6日に発表される予定である。

参考資料

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。