Diffusion-RPO:通过相对偏好优化对齐扩散模型
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对稳定扩散XL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。
🎯
关键要点
- 通过RLHF方法对大规模语言模型进行微调,以更好地与用户偏好匹配。
- 文本到图像扩散模型中人类偏好学习的探索较少,目前最佳方法是使用高质量图像和标题对预训练模型进行微调。
- 提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。
- Diffusion-DPO从直接偏好优化(DPO)中进行适应,优化策略以满足人类偏好。
- 利用Pick-a-Pic数据集中的851K个众包成对偏好,对稳定扩散XL-1.0模型进行微调。
- 微调后的模型在人工评估中显著优于基础模型,提高了视觉吸引力和提示对齐。
- 开发了一个使用AI反馈的变体,具有与基于人类偏好训练相当的性能,为扩展模型对齐方法打开了大门。
➡️