小红花·文摘 - 小红花技术领袖俱乐部

AToken：一种统一的视觉标记器

AToken：一种统一的视觉标记器

Apple Machine Learning Research ·

本研究提出了一种新型视觉标记器V2Flow，旨在解决传统视觉标记技术的不足。V2Flow通过流匹配将视觉标记与大型语言模型词汇结合，实现高保真重构和自回归视觉生成。实验结果表明，V2Flow在生成质量和标记整合方面优于主流VQ标记器，具有重要应用潜力。

V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation

BriefGPT - AI 论文速递 ·

本研究探讨了视觉标记器在图像和视频生成中的扩展问题。通过引入增强的视觉Transformer架构（ViTok），解码器的扩展显著提升了重建效果，并在视频生成中设定了新基准，为未来的视觉生成任务提供了新思路。

Learnings from Scaling Visual Tokenizers: Reconstruction and Generation

BriefGPT - AI 论文速递 ·