应用动作空间中自适应对抗扰动的鲁棒深度强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了深度强化学习算法中的建模错误问题,并提出了一种自适应对抗性扰动的方法来提高鲁棒性。实验结果表明,该方法可以提高训练的稳定性,并在不同的测试环境中学习到一种鲁棒的策略。
🎯
关键要点
- 深度强化学习算法中存在模拟与真实世界之间的建模错误问题。
- 通过对抗学习生成扰动以建模差异,提高深度强化学习的鲁棒性。
- 控制对抗性扰动的参数存在平均性能与鲁棒性之间的权衡。
- 提出了一种自适应对抗性扰动 (A2P) 方法,动态选择适当的对抗性扰动。
- A2P 方法在实际应用中无需事先访问模拟器。
- 在 MuJoCo 上的实验表明,A2P 方法提高了训练的稳定性,并在不同测试环境中学习到鲁棒策略。
➡️