小红花·文摘

本研究提出了一种无模型演员-评论家算法，旨在解决离线强化学习中的分布外动作问题。通过引入梯度多样性惩罚和可调行为克隆项，提升了训练的稳定性和准确性。实验结果表明，该算法在D4RL MuJoCo基准上表现优异。