通过群体偏好优化实现扩散模型的自我改进

📝

内容提要

本研究针对在文本到图像扩散模型中应用直接偏好优化(DPO)所面临的偏好对敏感性和高质量数据收集过程繁琐的问题,提出了通过群体偏好优化(GPO)的方法。研究表明,GPO通过扩大优先级评估范围,并对奖励进行标准化调整,可以在无需外部数据的情况下,自我提升模型性能,实验结果显示在多个扩散模型和任务中均有效,尤其是在稳定扩散3.5中,提高了20个百分点的准确计数和文本渲染能力。

🏷️

标签

➡️

继续阅读