本研究提出了一种新的视频标记器LARP,克服了传统自回归生成模型的局限性。LARP通过整体查询学习视觉信息,显著提升了生成模型的性能,在UCF101基准测试中表现优异,展现了其潜在应用价值。
完成下面两步后,将自动完成登录并继续当前操作。