SePPO：用于扩散模型对齐的半策略偏好优化

本研究解决了基于人类反馈的强化学习（RLHF）在视觉生成任务中依赖奖励模型的局限性以及需要大量人类标注数据的挑战。提出的半策略偏好优化（SePPO）方法通过引入参考模型和生成样本的方式优化偏好，从而避免对奖励模型的依赖。实验证明，SePPO在文本到图像和文本到视频基准测试中优于所有先前方法，展现了显著的性能提升。

通过人类反馈强化学习（RLHF）微调大规模语言模型（LLMs）以符合用户偏好，而文本到图像扩散模型的人类偏好学习较少。本文提出了Diffusion-DPO方法，通过优化人类比较数据，使扩散模型更符合人类偏好。使用Pick-a-Pic数据集微调SDXL-1.0模型，提升了视觉吸引力和文本对齐。还开发了使用AI反馈的变体，效果与人类偏好训练相当。

AI反馈 RLHF SDXL-1.0 人类偏好扩散模型