本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。
完成下面两步后,将自动完成登录并继续当前操作。