本论文提出了一种使用仅有解码器的Transformer来自主预测图像块的新生成方法。通过使用特定的噪声时间表和更大的模型进行更长的训练,可以改善学习到的表示。尽管架构简单,但在微调协议下其性能几乎与先进的掩码预测模型相当。
完成下面两步后,将自动完成登录并继续当前操作。