通过分布偏好奖励建模对齐群体反馈
原文中文,约600字,阅读约需2分钟。发表于: 。分布偏好奖励模型(DPRM)是一个简单而有效的框架,通过将最大语言模型(LLM)与多样化的人类偏好对齐,以提高对人群偏好的代表性。
通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对稳定扩散XL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。