SePPO:用于扩散模型对齐的半策略偏好优化

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

通过人类反馈强化学习(RLHF)微调大规模语言模型(LLMs)以符合用户偏好,而文本到图像扩散模型的人类偏好学习较少。本文提出了Diffusion-DPO方法,通过优化人类比较数据,使扩散模型更符合人类偏好。使用Pick-a-Pic数据集微调SDXL-1.0模型,提升了视觉吸引力和文本对齐。还开发了使用AI反馈的变体,效果与人类偏好训练相当。

🎯

关键要点

  • 通过人类反馈强化学习(RLHF)微调大规模语言模型(LLMs)以符合用户偏好。

  • 文本到图像扩散模型的人类偏好学习探索较少,目前最佳方法是使用高质量图像和标题对进行微调。

  • 提出Diffusion-DPO方法,通过优化人类比较数据使扩散模型更符合人类偏好。

  • Diffusion-DPO基于直接偏好优化(DPO),优化人类偏好的策略。

  • 利用Pick-a-Pic数据集中的851K个众包成对偏好微调SDXL-1.0模型。

  • 微调后的模型在人工评估中显著优于基础SDXL-1.0模型,提升了视觉吸引力和文本对齐性。

  • 开发了一个使用AI反馈的变体,性能与人类偏好训练相当,为扩展扩散模型对齐方法提供了可能。

➡️

继续阅读