小红花·文摘

我们提出了一种新的约束强化学习方法CSAC-LB，通过应用线性平滑对数势函数实现了适应性政策学习的惩罚，解决了数值问题。在不同难度的约束控制任务上实现了最先进的性能，并在真实的四足机器人平台上评估了我们的方法。