小红花·文摘

本研究提出了UniTok，一个统一的视觉分词器，旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义，通过多代码簿量化扩展潜在特征空间，显著提升视觉任务的表现。