HART：高效的混合自回归变换器视觉生成模型

本文提出混合自回归变换器（HART），旨在解决现有自回归模型在生成1024x1024图像时耐受低图像重构质量的问题。通过引入混合标记器，分解连续潜变量，实现对大图像及其残余部分的有效建模，HART在图像生成质量上超越了最新的扩散模型，并显著提高生成速度和效率。

论文介绍了一种新方法DARL，使用仅有解码器的Transformer预测图像块。通过均方差训练获得强大表示，并用去噪补丁解码器替代损失。研究表明，特定噪声时间表和更大模型的长时间训练可改善表示。DARL架构简单，但微调后性能接近先进模型，结合了自回归和去噪扩散模型的优势。

DARL Transformer 去噪自回归解码器