Apple Machine Learning Research ·

TrajTok：学习轨迹标记以提升视频理解

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

TrajTok是一种视频标记模块，通过动态调整标记粒度，解决视频模型中的标记冗余问题。它集成了统一的分割器，能够高效生成对象轨迹，提升视频理解性能。在分类和检索基准测试中表现优异，可作为预训练视觉特征的探测头或视觉-语言模型的连接器。

🎯

🔎

TrajTok通过动态调整标记粒度，解决了视频模型中的标记冗余问题。这种灵活性使其在处理复杂视频内容时表现出色，尤其适合需要高效视频理解的应用场景，如视频分类和检索。

与传统的基于补丁的标记方法相比，TrajTok的端到端设计显著提高了效率。它不依赖复杂的外部分割和跟踪管道，减少了处理时间，适合实时视频分析需求。

TrajTok的设计优先考虑下游适应性，而非追求像素级的完美分割。这一策略使其在多种视觉任务中表现良好，尤其是在需要快速响应的应用中，能够有效提升整体性能。

❓

TrajTok是一种视频标记模块，主要功能是通过动态调整标记粒度来解决视频模型中的标记冗余问题，从而提升视频理解性能。

TrajTok通过动态调整标记粒度，优先考虑下游适应性，从而提高视频理解性能。

TrajTok在分类和检索基准测试中表现优异，达到了最佳准确性。

TrajTok的设计优先考虑下游适应性，而非像素完美的分割精度。

TrajTok可以作为预训练视觉特征的探测头或视觉-语言模型的连接器，具有很强的适应性。

TrajTok在效率上与最佳的标记合并方法相当，同时在视频理解性能上有显著提升。

🏷️