vid-TLDR: 轻量级视频 Transformer 的无训练自由标记合并
原文中文,约300字,阅读约需1分钟。发表于: 。提出了轻量级视频 Transformer(vid-TLDR)的训练免费的令牌合并策略,通过合并背景令牌并通过关注图捕捉显著区域来提高视频 Transformer 的效率。实验证明,vid-TLDR 显着减轻了视频 Transformer 的计算复杂度,并且在与基准模型相比的性能上取得了有竞争力的结果。
研究人员提出了vid-TLDR,一种轻量级视频Transformer模型,通过合并背景令牌和关注图来提高效率。实验证明,vid-TLDR减轻了计算复杂度,并取得了有竞争力的结果。