带有平滑对数障碍函数的有约束强化学习
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
我们提出了一种新的约束强化学习方法CSAC-LB,通过应用线性平滑对数势函数实现了适应性政策学习的惩罚,解决了数值问题。在不同难度的约束控制任务上实现了最先进的性能,并在真实的四足机器人平台上评估了我们的方法。
🎯
关键要点
- 提出了一种新的约束强化学习方法CSAC-LB。
- CSAC-LB使用线性平滑对数势函数实现适应性政策学习的惩罚。
- 该方法解决了对数势函数应用中的数值问题。
- 在不同难度的约束控制任务上实现了最先进的性能。
- 在真实的四足机器人平台上评估了该方法。
➡️