小红花·文摘

我们提出了一种多模态扩散模型，专注于视频和音频的双向生成。通过联合对比训练损失，提高视听事件的同步性。实验显示，该模型在生成质量和对齐性能上优于基线，尤其在视频到音频生成任务中表现出色。