小红花·文摘

本文介绍了一种名为去噪扩散策略优化（DDPO）的算法，通过增强学习直接优化扩散模型，以提高图像质量和药物效果。研究利用人类比较数据微调模型，显著提升了视觉吸引力和文本对齐性。Diffusion-DPO方法在多个基准测试中表现优越，解决了扩散模型与人类偏好不一致的问题，并引入了新的评估指标以提高对齐效果。

SePPO：用于扩散模型对齐的半策略偏好优化

BriefGPT - AI 论文速递 ·

本文介绍了一种新的偏好学习方法Diffusion-DPO，该方法通过人类比较数据优化扩散模型，以更好地符合用户偏好。Diffusion-DPO基于直接偏好优化（DPO），在视觉吸引力和文本对齐性方面显著优于传统模型。此外，研究还探讨了在线AI反馈和拒绝采样优化等技术，以提升模型的稳定性和性能。

通过在线偏好优化实现大型语言模型的人类对齐

BriefGPT - AI 论文速递 ·