本文介绍了一种基于多模态扩散模型的音视频生成方法,利用耦合自编码器和随机平移注意力块实现音视频帧的生成与对齐。研究表明,该模型在生成质量和对齐性能上优于现有技术,具有良好的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。