本文介绍了一种开源视频标记器VidTok,旨在解决视频生成和理解中的冗余问题。VidTok结合卷积层和缩放模块,采用有限标量量化(FSQ),显著提升性能,超越现有技术。
完成下面两步后,将自动完成登录并继续当前操作。