Tokenization of Videos with a Learned Autoregressive Generative Prior

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新型视频标记器LARP,旨在克服传统视频标记方法在自回归生成模型中的局限性。LARP通过学习整体查询来收集视觉信息,提升生成模型的表现,并在UCF101视频生成基准上取得了先进的性能,显示出其潜在的应用价值。

🎯

关键要点

  • LARP是一种新型视频标记器,旨在克服传统视频标记方法在自回归生成模型中的局限性。
  • LARP通过学习整体查询来收集视觉信息,能够捕捉更全球和语义的表示。
  • LARP提升了生成模型的表现,并在UCF101视频生成基准上取得了先进的性能。
  • LARP显示了其在视频自回归生成中的潜在应用价值。
➡️

继续阅读