Apple Machine Learning Research ·

FlexTok：将图像重采样为可变长度的1D标记序列

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

FlexTok是一种新型图像标记器，将2D图像转换为可变长度的1D标记序列，提高了自回归图像生成的效率。与传统的2D网格标记方法相比，FlexTok能够根据图像复杂性灵活调整标记数量，从而生成高质量图像。实验结果表明，FlexTok在生成任务中表现优异，以更少的标记数实现了先进水平。

🎯

🔎

FlexTok通过将2D图像转换为可变长度的1D标记序列，展现了其在图像生成中的灵活性。这种方法能够根据图像的复杂性动态调整标记数量，从而在生成高质量图像的同时，显著提高了处理效率。相比传统的2D网格标记，FlexTok在生成任务中表现出更高的适应性和效率。

传统的2D网格标记方法在处理图像时需要固定数量的标记，而FlexTok则能够根据具体任务的复杂性灵活调整。这种创新使得FlexTok在生成图像时不仅减少了所需的标记数量，还能在相同条件下实现更优的生成质量，显示出其在图像生成领域的潜力。

FlexTok不仅支持图像生成，还扩展到文本条件生成。这意味着用户可以根据特定文本描述生成相应的图像，进一步提升了其应用场景的广泛性。随着生成任务复杂性的增加，FlexTok能够智能调整生成的标记数量，确保生成结果的准确性和质量。

❓

FlexTok是一种新型图像标记器，将2D图像转换为可变长度的1D标记序列。

FlexTok能够根据图像复杂性灵活调整标记数量，从而提高自回归图像生成的效率。

与传统的2D网格标记方法相比，FlexTok能够生成高质量图像，并且使用的标记数量更少。

在ImageNet上，FlexTok在8到128个标记的情况下实现了优于TiTok的性能，且与最先进的方法相匹配。

FlexTok支持文本条件的图像生成，并能够根据生成任务的复杂性调整生成的标记数量。

FlexTok的关键发现是，它能够以粗到细的“视觉词汇”描述图像的下一个标记预测。

🏷️