本文介绍了一种离线演员-评论家深度强化学习算法,通过利用价值函数评论家和继承特征评论家来学习高性能和多样化的行为。该算法在六个连续控制运动任务上表现出显著更高的性能和更多样化的行为,并在五个扰动环境中展示了优于其他基线的适应能力。
完成下面两步后,将自动完成登录并继续当前操作。