令牌级直接优化偏好

原文约600字，阅读约需2分钟。发表于：。

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

通过RLHF方法对大规模语言模型进行微调，使其更好地与用户偏好相匹配。提出Diffusion-DPO方法，通过在人类比较数据上进行直接优化，使扩散模型与人类偏好相匹配。使用Diffusion-DPO对稳定扩散XL-1.0模型进行微调，提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体，为扩展扩散模型对齐方法打开了大门。