机器之心 ·

今年最被低估的AI模型之一，重现李小龙功夫音

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

AI视频生成技术不断进步，谷歌的Veo2虽然功能强大，但缺乏音效。新工具MMAudio能够自动生成音频，显著提升视频质量，模拟环境音效、动作音效，甚至生成背景音乐。

🎯

🔎

在视频内容创作中，音频的缺失会显著影响观众的体验。根据研究，超过82%的视频都包含人声或音乐，这表明音频与视频的结合是吸引观众的关键因素。MMAudio的出现，正是为了填补这一空白，提升视频的整体质量。

MMAudio能够快速生成高质量的音频，且其模拟环境音效和动作音效的能力，使得视频内容更加生动。与传统手动配音相比，MMAudio的自动化处理不仅节省时间，还能提高创作效率，适合需要大量视频内容的创作者。

尽管MMAudio的主要目标是音效生成，但其多模态联合训练的能力使其在生成背景音乐和人声方面也表现出色。这种技术的灵活性为视频创作者提供了更多的创作可能性，值得关注其未来的发展。

❓

MMAudio工具可以自动生成视频音频，提升视频质量，模拟环境音效和动作音效。

MMAudio专注于模拟真实世界的声音，环境音效包括自然背景声音，动作音效则是视频中可见事件产生的声音。

生成一个8秒的高质量音频片段仅需1.23秒。

虽然MMAudio的主要目标不是生成音乐和人声，但它也能生成背景音乐。

谷歌的Veo2在视频生成上表现出色，但缺乏音效，生成的视频像是默片。

MMAudio显著提升了视频质量，使得视频更加生动和真实。

🏷️