小红花·文摘 - 小红花技术领袖俱乐部

CoordTok：可扩展的视频标记器，可学习从基于坐标的表示到输入视频的相应块的映射

CoordTok：可扩展的视频标记器，可学习从基于坐标的表示到输入视频的相应块的映射

实时互动网 ·

本文介绍了一种名为VidTok的开源视频标记器，旨在解决视频生成和理解中的像素级冗余问题。VidTok结合了卷积层和缩放模块等架构改进，并采用有限标量量化技术，显著提升了性能，优于现有方法。

VidTok: A Versatile Open-Source Video Tokenizer

BriefGPT - AI 论文速递 ·

本研究提出了一种新型视频标记器LARP，旨在克服传统视频标记方法在自回归生成模型中的局限性。LARP通过学习整体查询来收集视觉信息，提升生成模型的表现，并在UCF101视频生成基准上取得了先进的性能，显示出其潜在的应用价值。

Tokenization of Videos with a Learned Autoregressive Generative Prior

BriefGPT - AI 论文速递 ·