这段文字已经是简体中文。
介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic。
演员旨在最大化期望回报和熵,以执行随机动作。
通过改进如约束模型,提高了模型的稳定性和训练速度。
在基准任务和现实世界挑战任务中取得了最先进的性能。
在样本效率和渐近性能方面优于以往的在线和离线算法。
完成下面两步后,将自动完成登录并继续当前操作。