小红花·文摘

本研究提出了一种新颖的对齐方法——逐步扩散策略优化（SDPO），有效解决了现有对齐方法在少步扩散模型中的泛化不足问题。实验结果表明，SDPO在奖励基础对齐方面优于以往方法，展现出强大的泛化能力。