MMAudio

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

CVPR 2025

Ho Kei Cheng¹

Masato Ishii²

Akio Hayakawa²

Takashi Shibuya²

Alexander Schwing¹

Yuki Mitsufuji^2,3

¹University of Illinois Urbana-Champaign

²Sony AI

³Sony Group Corporation

[Paper]

[Code]

[Huggingface Demo]

[Colab Demo]

[Replicate Demo]

TL;DR

MMAudio generates synchronized audio given video and/or text inputs.

Check out this fun video!

Demo