UniTok: A Unified Tokenizer for Visual Generation and Understanding
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。
🎯
关键要点
-
UniTok是一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。
-
UniTok能够同时编码细粒度细节和高层语义。
-
通过多代码簿量化,UniTok扩展了潜在特征空间。
-
UniTok显著提升了视觉任务的表现,超越了领域特定的连续分词器。
➡️