混合偏好优化:通过数据选择和更好的参考模型进行强化学习

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对SDXL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。

🎯

关键要点

  • 通过RLHF方法对大规模语言模型进行微调,以更好地与用户偏好匹配。

  • 文本到图像扩散模型中人类偏好学习的探索较少,最佳方法是使用高质量图像和标题对预训练模型进行微调。

  • 提出Diffusion-DPO方法,通过直接优化人类比较数据,使扩散模型与人类偏好相匹配。

  • Diffusion-DPO基于直接偏好优化(DPO),重新制定以适应扩散模型的似然概念。

  • 使用851K个众包成对偏好数据微调SDXL-1.0模型,显著提高视觉吸引力和提示对齐。

  • 开发了一个使用AI反馈的变体,具有与基于人类偏好训练相当的性能,拓展了扩散模型对齐方法的可能性。

🏷️

标签

➡️

继续阅读