HART:高效的混合自回归变换器视觉生成模型
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出混合自回归变换器(HART),旨在解决现有自回归模型在生成1024x1024图像时耐受低图像重构质量的问题。通过引入混合标记器,分解连续潜变量,实现对大图像及其残余部分的有效建模,HART在图像生成质量上超越了最新的扩散模型,并显著提高生成速度和效率。
论文介绍了一种新方法DARL,使用仅有解码器的Transformer预测图像块。通过均方差训练获得强大表示,并用去噪补丁解码器替代损失。研究表明,特定噪声时间表和更大模型的长时间训练可改善表示。DARL架构简单,但微调后性能接近先进模型,结合了自回归和去噪扩散模型的优势。