策略平滑强化学习的奖励认证
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。实验结果表明,该方法提高了平均累积奖励的认证下界,且比最先进的技术更高效。
🎯
关键要点
- 提出了一种通用的黑盒认证方法。
- 该方法能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励。
- 扩展了在动作空间上认证扰动的方法。
- 利用 f - 分布度量原始分布与扰动分布之间的差异。
- 通过求解凸优化问题确定认证边界。
- 理论分析和实验结果表明,方法提高了平均累积奖励的认证下界。
- 该方法比最先进的技术更高效。
🏷️
标签
➡️