Diffusion-RPO:通过相对偏好优化对齐扩散模型

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对稳定扩散XL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。

🎯

关键要点

  • 通过RLHF方法对大规模语言模型进行微调,以更好地与用户偏好匹配。
  • 文本到图像扩散模型中人类偏好学习的探索较少,目前最佳方法是使用高质量图像和标题对预训练模型进行微调。
  • 提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。
  • Diffusion-DPO从直接偏好优化(DPO)中进行适应,优化策略以满足人类偏好。
  • 利用Pick-a-Pic数据集中的851K个众包成对偏好,对稳定扩散XL-1.0模型进行微调。
  • 微调后的模型在人工评估中显著优于基础模型,提高了视觉吸引力和提示对齐。
  • 开发了一个使用AI反馈的变体,具有与基于人类偏好训练相当的性能,为扩展模型对齐方法打开了大门。
🏷️

标签

➡️

继续阅读