TrajTok是一种视频标记模块,通过动态调整标记粒度,解决视频模型中的标记冗余问题。它集成了统一的分割器,能够高效生成对象轨迹,提升视频理解性能。在分类和检索基准测试中表现优异,可作为预训练视觉特征的探测头或视觉-语言模型的连接器。
完成下面两步后,将自动完成登录并继续当前操作。