小红花·文摘

本研究提出了SemHiTok，一种通过语义引导的层次化代码本实现的统一图像标记器，旨在解决多模态理解和生成中的训练挑战。该方法有效平衡了低级纹理特征与高级语义特征的提取，实验结果显示在256X256分辨率下达到了先进的rFID得分。