vid-TLDR: 轻量级视频 Transformer 的无训练自由标记合并

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

研究人员提出了vid-TLDR,一种轻量级视频Transformer模型,通过合并背景令牌和关注图来提高效率。实验证明,vid-TLDR减轻了计算复杂度,并取得了有竞争力的结果。

🎯

关键要点

  • 提出了轻量级视频Transformer模型vid-TLDR。
  • 通过合并背景令牌和关注图来提高视频Transformer的效率。
  • vid-TLDR显著减轻了计算复杂度。
  • 在与基准模型的比较中,vid-TLDR取得了有竞争力的结果。
➡️

继续阅读