FlexTok:将图像重采样为可变长度的1D标记序列

FlexTok:将图像重采样为可变长度的1D标记序列

💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

FlexTok是一种新型图像标记器,将2D图像转换为可变长度的1D标记序列,提高了自回归图像生成的效率。与传统的2D网格标记方法相比,FlexTok能够根据图像复杂性灵活调整标记数量,从而生成高质量图像。实验结果表明,FlexTok在生成任务中表现优异,以更少的标记数实现了先进水平。

🎯

关键要点

  • FlexTok是一种新型图像标记器,将2D图像转换为可变长度的1D标记序列。
  • FlexTok提高了自回归图像生成的效率,能够根据图像复杂性灵活调整标记数量。
  • 与传统的2D网格标记方法相比,FlexTok生成高质量图像,且使用的标记数量更少。
  • FlexTok通过训练修正流模型作为解码器,能够生成可信的重建图像。
  • 在ImageNet上,FlexTok在8到128个标记的情况下实现了优于TiTok的性能,且与最先进的方法相匹配。
  • FlexTok支持文本条件的图像生成,并能够根据生成任务的复杂性调整生成的标记数量。
  • FlexTok的关键发现是,它能够以粗到细的“视觉词汇”描述图像的下一个标记预测。
➡️

继续阅读