将文本到图像扩散模型与奖励反向传播对齐
原文中文,约500字,阅读约需1分钟。发表于: 。AlignProp 是一种用于将扩散模型与下游奖励函数对齐的方法,通过反向传播奖励梯度穿越去噪过程,它在较少的训练步骤中实现了更高的奖励,且概念上更简单,因此对于优化不同 iable reward functions 感兴趣的扩散模型来说是一个直观的选择。
本研究发现扩散模型生成的描述可以提高文本图像对齐和模型交叉注意力图,从而提高知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型。同时,该方法适用于跨领域环境,可以通过模型个性化和标题修改来改善非对齐基准的性能。在Pascal VOC和Cityscapes数据集上训练的目标检测和分割方法实现了最佳结果。