巡逻安全游戏:针对攻击者的自由度进行防御
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了强化学习在噪声和对抗性攻击下的鲁棒性,分析了在线操纵攻击的多种形式。通过马尔可夫决策过程(MDP)模型,探讨攻击者如何设计隐蔽攻击以最大化收益。结果表明,攻击者可在多项式时间内找到最优策略。尽管防御问题是NP困难的,但受害者的最优防御策略可通过解决随机Stackelberg博弈在多项式时间内获得。
🎯
关键要点
- 研究强化学习在噪声和对抗性攻击下的鲁棒性。
- 分析在线操纵攻击的多种形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。
- 通过马尔可夫决策过程(MDP)建模攻击交互中的元级环境。
- 攻击者设计隐蔽攻击以最大化预期收益,通常对应于减小受害者价值。
- 攻击者可以在多项式时间内找到最优攻击策略。
- 受害者的最优防御策略可通过解决随机Stackelberg博弈获得。
- 防御问题是NP困难的,但在许多情况下最优马尔可夫防御策略可以在多项式时间内计算(学习)。
➡️