MIT和NVIDIA的研究人员开发了HART工具,结合自回归模型与扩散模型,能够快速生成高质量图像。HART的速度比传统扩散模型快九倍,适用于机器人训练和游戏设计等多个领域。
论文介绍了一种新方法DARL,使用仅有解码器的Transformer预测图像块。通过均方差训练获得强大表示,并用去噪补丁解码器替代损失。研究表明,特定噪声时间表和更大模型的长时间训练可改善表示。DARL架构简单,但微调后性能接近先进模型,结合了自回归和去噪扩散模型的优势。
完成下面两步后,将自动完成登录并继续当前操作。