小红花·文摘

研究人员提出了vid-TLDR，一种轻量级视频Transformer模型，通过合并背景令牌和关注图来提高效率。实验证明，vid-TLDR减轻了计算复杂度，并取得了有竞争力的结果。