混合偏好优化:通过数据选择和更好的参考模型进行强化学习
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对SDXL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。
🎯
关键要点
-
通过RLHF方法对大规模语言模型进行微调,以更好地与用户偏好匹配。
-
文本到图像扩散模型中人类偏好学习的探索较少,最佳方法是使用高质量图像和标题对预训练模型进行微调。
-
提出Diffusion-DPO方法,通过直接优化人类比较数据,使扩散模型与人类偏好相匹配。
-
Diffusion-DPO基于直接偏好优化(DPO),重新制定以适应扩散模型的似然概念。
-
使用851K个众包成对偏好数据微调SDXL-1.0模型,显著提高视觉吸引力和提示对齐。
-
开发了一个使用AI反馈的变体,具有与基于人类偏好训练相当的性能,拓展了扩散模型对齐方法的可能性。
🏷️
标签
➡️