机器之心 ·

港科大开源VideoVAE+，视频重建质量全面超越最新模型

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

港科大团队开源的VideoVAE+是一种跨模态视频变分自编码器，采用时空分离压缩机制和文本指导，能够高效压缩和重建大幅运动视频，有效解决时序闪烁和细节模糊问题。该模型在多个数据集上表现优异，超越了多种现有技术。

🎯

🔎

VideoVAE+通过时空分离的压缩机制和轻量级运动压缩模型，解决了传统视频生成中的时序闪烁和细节模糊问题。这种创新设计使得模型在处理大幅运动视频时，能够更好地保持时间一致性和细节清晰度，适用于需要高质量视频重建的应用场景。

引入文本信息作为指导的跨模态注意力机制，显著提升了VideoVAE+在细节重建方面的表现。这一机制不仅增强了视频生成的语义理解能力，还提高了生成视频的质量，尤其在复杂场景中，能够更好地捕捉细节和动态变化。

VideoVAE+在多个数据集上超越了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video等最新模型。这表明，VideoVAE+在视频重建领域的竞争力，尤其是在处理大幅运动和复杂场景时，具有明显的优势，值得关注其在实际应用中的潜力。

❓

VideoVAE+模型的主要创新点包括时空分离的压缩机制、轻量级运动压缩模型、文本信息融合和图像与视频的联合训练。

VideoVAE+通过时空分离的压缩机制，有效分离空间和时间信息，避免因时空耦合而导致的运动伪影，从而解决时序闪烁问题。

VideoVAE+在多个数据集上表现优异，超越了包括英伟达的Cosmos Tokenizer和腾讯的Hunyuan Video等多种现有技术。

VideoVAE+通过引入文本信息作为指导，增强视频细节的保留能力和时间一致性，从而提升视频生成的质量。

VideoVAE+采用图像与视频的联合训练，能够同时学习图像压缩能力和提升视频压缩性能。

VideoVAE+通过轻量级运动压缩模型和时序感知的空间自编码器，能够高效捕获视频中的运动动态，实现大幅运动视频的精准重建。

🏷️