SePPO:用于扩散模型对齐的半策略偏好优化
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
通过人类反馈强化学习(RLHF)微调大规模语言模型(LLMs)以符合用户偏好,而文本到图像扩散模型的人类偏好学习较少。本文提出了Diffusion-DPO方法,通过优化人类比较数据,使扩散模型更符合人类偏好。使用Pick-a-Pic数据集微调SDXL-1.0模型,提升了视觉吸引力和文本对齐。还开发了使用AI反馈的变体,效果与人类偏好训练相当。
🎯
关键要点
-
通过人类反馈强化学习(RLHF)微调大规模语言模型(LLMs)以符合用户偏好。
-
文本到图像扩散模型的人类偏好学习探索较少,目前最佳方法是使用高质量图像和标题对进行微调。
-
提出Diffusion-DPO方法,通过优化人类比较数据使扩散模型更符合人类偏好。
-
Diffusion-DPO基于直接偏好优化(DPO),优化人类偏好的策略。
-
利用Pick-a-Pic数据集中的851K个众包成对偏好微调SDXL-1.0模型。
-
微调后的模型在人工评估中显著优于基础SDXL-1.0模型,提升了视觉吸引力和文本对齐性。
-
开发了一个使用AI反馈的变体,性能与人类偏好训练相当,为扩展扩散模型对齐方法提供了可能。
➡️