本研究提出了一种行为支持策略优化(BSPO)方法,旨在解决强化学习中基于人类反馈的奖励过度优化问题,减少模型评估时的外推误差。研究证明,BSPO能够实现策略的单调改进,并收敛到最佳策略。
完成下面两步后,将自动完成登录并继续当前操作。