我们提出了一种多模态扩散模型,专注于视频和音频的双向生成。通过联合对比训练损失,提高视听事件的同步性。实验显示,该模型在生成质量和对齐性能上优于基线,尤其在视频到音频生成任务中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。