本研究提出了VTBench评估基准,针对自回归图像生成中离散视觉分词器(VT)性能不足的问题。研究表明,连续变分自编码器(VAE)在图像重建、细节保留和文本保留方面优于离散VT,强调了改进VT的重要性。
完成下面两步后,将自动完成登录并继续当前操作。