本研究提出了VTBench评估基准,针对自回归图像生成中离散视觉分词器(VT)性能不足的问题。研究表明,连续变分自编码器(VAE)在图像重建、细节保留和文本保留方面优于离散VT,强调了改进VT的重要性。
本研究提出了ZipAR框架,旨在提高自回归图像生成的效率。通过利用图像的局部结构,ZipAR能够在一次前向传播中并行解码多个相邻区域,实验表明可减少91%的前向传播次数。
完成下面两步后,将自动完成登录并继续当前操作。