本文提出了一种新的政策梯度算法——得分熵策略优化(SEPO),旨在解决离散扩散模型在使用人类反馈的强化学习中的微调难题。该方法在处理非可微分奖励时展现出良好的可扩展性和效率,可能推动相关研究的发展。
本论文提供了对政策梯度算法的整体概述,包括连续版本的政策梯度定理的证明、收敛性结果以及对实际算法的讨论。通过比较算法并提供正则化的好处方面的见解,加强了对主题的认识。
完成下面两步后,将自动完成登录并继续当前操作。