使用二进制球面量化对图像和视频进行令牌化
原文中文,约700字,阅读约需2分钟。发表于: 。提出了一种新的基于转换器的图像和视频分词器,使用二值球面量化实现。BSQ 将高维视觉嵌入投影到低维超球面上,然后应用二值量化。我们的分词器使用变长视频输入的转换器编码器和解码器,通过简单的分块因果掩蔽实现。基于此的 BSQ-ViT 在图像和视频重建基准上达到了最先进的视觉重建质量,并实现了最佳先前方法的 2.4 倍吞吐量。此外,通过学习自回归先验进行自适应算术编码,BSQ-ViT...
研究人员提出了一种名为“随机共振变压器”(SRT)的零样本方法,通过子标记空间平移扰动输入图像,改善了Vision Transformers(ViTs)中的量化伪像问题。SRT可以有效地超分辨率预训练ViTs的特征,捕捉到更多的局部细粒度结构,并在多个任务上展现改进效果,无需微调。