小红花·文摘

本文提出了一种新的政策梯度算法——得分熵策略优化（SEPO），旨在解决离散扩散模型在使用人类反馈的强化学习中的微调难题。该方法在处理非可微分奖励时展现出良好的可扩展性和效率，可能推动相关研究的发展。