我们提出了一种新的约束强化学习方法CSAC-LB,通过应用线性平滑对数势函数实现了适应性政策学习的惩罚,解决了数值问题。在不同难度的约束控制任务上实现了最先进的性能,并在真实的四足机器人平台上评估了我们的方法。
完成下面两步后,将自动完成登录并继续当前操作。