通过 $l_∞$ 利普希茨策略网络提高强化学习对观测扰动的鲁棒性

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。通过求解凸优化问题确定认证边界,实验证明该方法提高了平均累积奖励的认证下界,且比最先进的技术更高效。

🎯

关键要点

  • 提出了一种通用的黑盒认证方法。
  • 该方法能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励。
  • 扩展了在动作空间上认证扰动的方法。
  • 利用 f - 分布度量原始分布与扰动分布之间的差异。
  • 通过求解凸优化问题确定认证边界。
  • 理论分析和实验结果表明,该方法提高了平均累积奖励的认证下界。
  • 该方法比最先进的技术更高效。
➡️

继续阅读