文本 - 图像扩散与偏好的密集奖励观点对齐

原文约500字,阅读约需1分钟。发表于:

通过引入时间折扣机制以适应 T2I 生成层次结构,本文提出了一种可行的对齐目标,强调 T2I 反向链中的初始步骤,实验证明该方法在单个和多个提示生成方面与相关基线方法具有竞争力。

扩散模型是一种生成模型,能够合成文本到图像,提高文本图像对齐和知觉性能。该方法在ADE20K和NYUv2数据集上改进了语义分割和深度估计模型。适用于跨领域环境,通过个性化和标题修改改善非对齐基准的性能。目标检测模型在Pascal VOC数据集上训练,实现了Watercolor2K数据集上的最佳结果。分割方法在Cityscapes数据集上训练,实现了Dark Zurich-val和Nighttime Driving数据集上的最佳结果。

相关推荐 去reddit讨论