本文提出了一种结合文本和音频条件的3D-VQGAN和transformers生成长视频的方法,强调多文本条件在视频生成中的重要性。新模型注重视觉一致性和动态噪声处理,实验结果显示其在语义一致性和时间连续性方面表现优异,拓宽了视频生成和编辑的能力。
完成下面两步后,将自动完成登录并继续当前操作。