小红花·文摘

本研究提出了一种基于内容图像的极度压缩运动潜变量编码方法，旨在降低商业视频生成模型的成本。通过变分自编码器实现潜变量64倍压缩，保持视频质量，并显著提高训练和推理效率。实验结果表明，Reducer-DiT在有限计算资源下能够生成高质量的1024*1024分辨率视频，帧率达到每秒15.5帧。