研究人员提出了vid-TLDR,一种轻量级视频Transformer模型,通过合并背景令牌和关注图来提高效率。实验证明,vid-TLDR减轻了计算复杂度,并取得了有竞争力的结果。
完成下面两步后,将自动完成登录并继续当前操作。