带有平滑对数障碍函数的有约束强化学习
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种新的约束强化学习方法,称为 CSAC-LB(具有对数势函数的约束软 Actor-Critic)。通过将线性平滑对数势函数应用于附加的安全评论家,它实现了适应性政策学习的惩罚,并减轻了对数势函数方法应用中已知的数值问题,从而在几个不同难度的约束控制任务上实现了最先进的性能,并在真实的四足机器人平台上评估了我们的方法。
我们提出了一种新的约束强化学习方法CSAC-LB,通过应用线性平滑对数势函数实现了适应性政策学习的惩罚,解决了数值问题。在不同难度的约束控制任务上实现了最先进的性能,并在真实的四足机器人平台上评估了我们的方法。