量子位 ·

微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

微软开源了新的视频Tokenizer VidTok，其性能显著优于Cosmos Tokenizer和Open-Sora。VidTok支持多种设置，适用于不同场景，并可在自定义数据集上微调。其创新架构和量化技术提升了重建质量和训练效率，为视频生成和世界模型研究提供了强大工具。

🎯

🔎

VidTok在视频Tokenizer领域展现出显著的技术优势，采用了混合模型架构，结合了3D、2D和1D卷积，有效降低了计算需求，同时保持了高重建质量。此外，引入的有限标量量化（FSQ）技术提升了训练稳定性，减少了对显式码本的依赖，进一步增强了模型性能。

VidTok支持多种设置，适用于不同的应用场景，包括连续型和离散型模型。其灵活的压缩率和因果、非因果模型的支持，使得研究者和开发者能够根据具体需求进行微调，提升模型在特定领域的表现。

VidTok采用分阶段训练策略，显著减少了训练时间，降低了计算成本。通过在低分辨率视频上预训练并在高分辨率视频上微调，训练时间减少了50%，而重建质量保持不变。这一策略为资源有限的研究者提供了更为高效的训练方案。

❓

VidTok在各项指标上显著优于Cosmos Tokenizer和Open-Sora，尤其在重建质量和训练效率方面表现突出。

VidTok支持连续型和离散型模型设置，适应不同的压缩率和隐空间通道数。

VidTok的开源为研究者提供了高性能、易用的工具平台，支持在自定义数据集上微调，促进视频生成和世界模型研究。

VidTok采用分阶段训练策略，先在低分辨率视频上预训练，再在高分辨率视频上微调，训练时间减少了50%。

VidTok的创新技术包括高效的混合模型架构、有限标量量化（FSQ）技术和增强的训练策略。

视频Tokenizer的主要作用是将高维的原始视频数据转换为隐空间中高效的压缩表示，以便于信息生成和处理。

🏷️