有界理性曲线下的鲁棒对抗强化学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了对抗性强化学习方法,通过二人零和博弈自动确定环境参数范围,训练的优化代理更具鲁棒性。在网格世界和三个 MuJoCo 控制环境中验证。
🎯
关键要点
- 提出了可行的对抗性强化学习 (FARR) 方法。
- FARR 方法通过二人零和博弈自动确定环境参数的范围。
- 优化 FARR 目标可以产生对抗性分布和策略鲁棒。
- 在参数化的网格世界和三个 MuJoCo 控制环境中进行验证。
- 使用 FARR 训练的优化代理在可行对抗参数选择上更具鲁棒性。
➡️