小红花·文摘

本论文提出了一种使用仅有解码器的Transformer来自主预测图像块的新生成方法。通过使用特定的噪声时间表和更大的模型进行更长的训练，可以改善学习到的表示。尽管架构简单，但在微调协议下其性能几乎与先进的掩码预测模型相当。