小红花·文摘

本研究提出了一种新的对抗约束策略优化（ACPO）方法，旨在改善约束强化学习在任务性能与约束满足之间的平衡。实验结果表明，该方法在安全健身房和四足动物移动任务中优于常用基线。