实时互动网 ·

DualDub：同时生成和谐的语音与背景音频，构建完整的视频音轨 | ACM MM 2025

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

西工大音频语音与语言处理研究组提出的DualDub模型，旨在同时生成视频的背景音频和语音，解决了现有视频到音频模型忽视语音的问题。该模型通过多模态编码器和对齐模块，实现音频与语音的同步生成，并引入DualBench基准测试集，实验结果显示其在生成质量和时间同步性方面表现优异。

🎯

🔎

DualDub模型通过同时生成背景音频和语音，填补了现有视频到音频模型在语音生成方面的空白。这一创新不仅提升了音轨的整体质量，还为视频内容创作者提供了更高效的音频生成工具，可能改变视频制作的工作流程。

DualDub的多模态对齐模块结合因果与非因果注意力机制，显著提升了音频与语音的时间同步性和声学和谐性。这一技术的成功应用，意味着未来在多模态生成任务中，如何有效对齐不同模态的信息将成为关键挑战。

为应对数据稀缺问题，DualDub采用了课程学习策略，逐步提升模型的多模态能力。这种方法不仅有效利用了有限的数据资源，还避免了模型在训练过程中的灾难性遗忘，展示了在低资源条件下的训练潜力。

❓

DualDub模型旨在同时生成视频的背景音频和语音，解决现有模型忽视语音的问题。

DualDub通过多模态编码器和对齐模块，实现音频与语音的同步生成。

DualBench基准测试集用于评估DualDub在生成质量和时间同步性方面的表现。

DualDub包含多模态编码器、多模态对齐器和多模态语言模型三个主要组件。

课程学习策略帮助DualDub在数据稀缺的情况下逐步构建多模态能力。

DualDub在Video-to-Audio任务上表现良好，能够生成高质量的音轨。

🏷️