令牌级直接优化偏好

原文约600字,阅读约需2分钟。发表于:

通过优化策略的 token 级别前向 KL 散度约束,引入了 Token-level Direct Preference Optimization(TDPO)一种在 human preferences 上对齐 LLMs 的新方法,提高了对齐性和多样性

通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对稳定扩散XL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。

相关推荐 去reddit讨论