本研究提出了一种新颖的对齐方法——逐步扩散策略优化(SDPO),有效解决了现有对齐方法在少步扩散模型中的泛化不足问题。实验结果表明,SDPO在奖励基础对齐方面优于以往方法,展现出强大的泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。