本研究提出了一种新的对抗约束策略优化(ACPO)方法,旨在平衡强化学习中的任务性能与约束满足。实验结果显示,该方法在安全健身房和四足动物移动任务中优于常用基线。
完成下面两步后,将自动完成登录并继续当前操作。