无训练的投机雅可比解码加速自回归文本到图像生成
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对传统自回归模型在推理过程中步骤过多导致的时间消耗问题,提出了一种无训练的投机雅可比解码算法(SJD)。该方法通过引入概率收敛标准,加速文本到图像生成,同时保留采样解码的随机性,显著提高了生成多样性和效率。实验结果表明,SJD在确保视觉质量的前提下,能够大幅减少生成步骤。
本文介绍了Text-Conditioned Token Selection(TCTS)方案,通过文本信息选择最佳选项,提高图像生成质量和语义对齐度。结合Frequency Adaptive Sampling(FAS),进一步提升效果。实验显示,TCTS与FAS在图像-文本对齐和图像质量上优于基线,并将推理时间缩短50%以上。