本文介绍了一种基于轻量级适配器网络的视频生成方法,通过自然音频样本生成多样化且逼真的视频。研究提出了新的评估度量(AV-Align),并在多个数据集上验证了该方法的有效性,显示出生成视频在内容和时间轴上的优越对齐性及更高的视觉质量。
完成下面两步后,将自动完成登录并继续当前操作。