本研究提出Smooth-Foley模型,解决视频到音频生成中的语义和时间对齐问题,显著提升音频质量和物理一致性,优于现有模型。
我们提出了一种多模态扩散模型,专注于视频和音频的双向生成。通过联合对比训练损失,提高视听事件的同步性。实验显示,该模型在生成质量和对齐性能上优于基线,尤其在视频到音频生成任务中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。