vid-TLDR: 轻量级视频 Transformer 的无训练自由标记合并
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
研究人员提出了vid-TLDR,一种轻量级视频Transformer模型,通过合并背景令牌和关注图来提高效率。实验证明,vid-TLDR减轻了计算复杂度,并取得了有竞争力的结果。
🎯
关键要点
- 提出了轻量级视频Transformer模型vid-TLDR。
- 通过合并背景令牌和关注图来提高视频Transformer的效率。
- vid-TLDR显著减轻了计算复杂度。
- 在与基准模型的比较中,vid-TLDR取得了有竞争力的结果。
🏷️
标签
➡️