本研究提出了一种新算法KROPE,用于解决离线价值函数学习中的不稳定性。KROPE通过相似的奖励和状态-动作对来优化表示,提高学习稳定性,减少价值误差,并提供理论稳定性保障。
完成下面两步后,将自动完成登录并继续当前操作。