APLA是一种基于扩散模型的文本到视频生成网络结构,通过引入视频生成变换器VGT来提取扰动,改善视频帧之间的一致性。实验证明,生成的视频在一致性方面有明显的改进。
完成下面两步后,将自动完成登录并继续当前操作。