UniTok: A Unified Tokenizer for Visual Generation and Understanding

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了UniTok,一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。UniTok能够同时编码细粒度细节和高层语义,通过多代码簿量化扩展潜在特征空间,显著提升视觉任务的表现。

🎯

关键要点

  • UniTok是一个统一的视觉分词器,旨在解决视觉生成与理解之间的代表性差异。

  • UniTok能够同时编码细粒度细节和高层语义。

  • 通过多代码簿量化,UniTok扩展了潜在特征空间。

  • UniTok显著提升了视觉任务的表现,超越了领域特定的连续分词器。

➡️

继续阅读