本研究提出了一种无模型演员-评论家算法,旨在解决离线强化学习中的分布外动作问题。通过引入梯度多样性惩罚和可调行为克隆项,提升了训练的稳定性和准确性。实验结果表明,该算法在D4RL MuJoCo基准上表现优异。
完成下面两步后,将自动完成登录并继续当前操作。