本文提出了一种新的政策梯度算法——得分熵策略优化(SEPO),旨在解决离散扩散模型在使用人类反馈的强化学习中的微调难题。该方法在处理非可微分奖励时展现出良好的可扩展性和效率,可能推动相关研究的发展。
完成下面两步后,将自动完成登录并继续当前操作。