我们提出了一种多模态扩散模型,专注于视频和音频的双向生成。通过联合对比训练损失,提高视听事件的同步性。实验显示,该模型在生成质量和对齐性能上优于基线,尤其在视频到音频生成任务中表现出色。
通过多模态扩散模型和一致性蒸馏构建了新颖的概率架构LM2D,用于创建与歌词和音乐相匹配的逼真且多样化的舞蹈。经过客观度量和人类评估,该模型能够产生与歌词和音乐匹配的逼真且多样化的舞蹈。
完成下面两步后,将自动完成登录并继续当前操作。