SePPO:用于扩散模型对齐的半策略偏好优化
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z
通过人类反馈强化学习(RLHF)微调大规模语言模型(LLMs)以符合用户偏好,而文本到图像扩散模型的人类偏好学习较少。本文提出了Diffusion-DPO方法,通过优化人类比较数据,使扩散模型更符合人类偏好。使用Pick-a-Pic数据集微调SDXL-1.0模型,提升了视觉吸引力和文本对齐。还开发了使用AI反馈的变体,效果与人类偏好训练相当。
原文中文,约600字,阅读约需2分钟。