本研究提出了一种基于内容图像的极度压缩运动潜变量编码方法,旨在降低商业视频生成模型的成本。通过变分自编码器实现潜变量64倍压缩,保持视频质量,并显著提高训练和推理效率。实验结果表明,Reducer-DiT在有限计算资源下能够生成高质量的1024*1024分辨率视频,帧率达到每秒15.5帧。
完成下面两步后,将自动完成登录并继续当前操作。