有界理性曲线下的鲁棒对抗强化学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了对抗性强化学习方法,通过二人零和博弈自动确定环境参数范围,训练的优化代理更具鲁棒性。在网格世界和三个 MuJoCo 控制环境中验证。

🎯

关键要点

  • 提出了可行的对抗性强化学习 (FARR) 方法。
  • FARR 方法通过二人零和博弈自动确定环境参数的范围。
  • 优化 FARR 目标可以产生对抗性分布和策略鲁棒。
  • 在参数化的网格世界和三个 MuJoCo 控制环境中进行验证。
  • 使用 FARR 训练的优化代理在可行对抗参数选择上更具鲁棒性。
➡️

继续阅读