SePPO:用于扩散模型对齐的半策略偏好优化

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

通过人类反馈强化学习(RLHF)微调大规模语言模型(LLMs)以符合用户偏好,而文本到图像扩散模型的人类偏好学习较少。本文提出了Diffusion-DPO方法,通过优化人类比较数据,使扩散模型更符合人类偏好。使用Pick-a-Pic数据集微调SDXL-1.0模型,提升了视觉吸引力和文本对齐。还开发了使用AI反馈的变体,效果与人类偏好训练相当。

原文中文,约600字,阅读约需2分钟。
阅读原文