超越幻觉:通过幻觉感知的直接偏好优化增强 LVLMs
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
通过RLHF方法对大规模语言模型进行微调,使其更好地与用户偏好相匹配。提出了Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。使用Diffusion-DPO对稳定扩散XL-1.0模型进行微调,提高了视觉吸引力和提示对齐。开发了一个使用AI反馈的变体,为扩展扩散模型对齐方法打开了大门。
🎯
关键要点
-
通过RLHF方法对大规模语言模型进行微调,以更好地与用户偏好匹配。
-
文本到图像扩散模型中人类偏好学习的探索较少,最佳方法是使用高质量图像和标题对预训练模型进行微调。
-
提出Diffusion-DPO方法,通过在人类比较数据上进行直接优化,使扩散模型与人类偏好相匹配。
-
Diffusion-DPO从直接偏好优化(DPO)中适应,优化人类偏好的策略。
-
利用Pick-a-Pic数据集中的851K个众包成对偏好,对稳定扩散XL-1.0模型进行微调。
-
微调后的模型在人工评估中显著优于基础模型,提高了视觉吸引力和提示对齐。
-
开发了一个使用AI反馈的变体,具有与基于人类偏好训练相当的性能,为扩展扩散模型对齐方法打开了大门。
➡️