小红花·文摘

本文提出了一种结合文本和音频条件的3D-VQGAN和transformers生成长视频的方法，强调多文本条件在视频生成中的重要性。新模型注重视觉一致性和动态噪声处理，实验结果显示其在语义一致性和时间连续性方面表现优异，拓宽了视频生成和编辑的能力。