从扩散反馈中强化学习:图像搜索的 Q*

大型视觉 - 语言模型通过非微调或数据增强实现个性化能力增强。本文提出了两种使用模型无关学习进行图像生成的模型,通过将语义先验与生成能力进行对齐。其中一种方法是 RLDF(Reinforcement Learning from Diffusion Feedback),通过保持先前的奖励函数进行视觉模仿。另一种方法是噪声扩散梯度优化方法。这些方法的核心是我们提出的连续语义引导的特殊 CFG...

本文介绍了两种使用模型无关学习进行图像生成的方法,通过将语义先验与生成能力对齐。其中一种方法是通过保持先前的奖励函数进行视觉模仿,另一种方法是噪声扩散梯度优化方法。这些方法在不同领域生成了高质量图像。

原文中文,约400字,阅读约需1分钟。发表于:
阅读原文