巡逻安全游戏:针对攻击者的自由度进行防御

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文研究了强化学习在噪声和对抗性攻击下的鲁棒性,分析了在线操纵攻击的多种形式。通过马尔可夫决策过程(MDP)模型,探讨攻击者如何设计隐蔽攻击以最大化收益。结果表明,攻击者可在多项式时间内找到最优策略。尽管防御问题是NP困难的,但受害者的最优防御策略可通过解决随机Stackelberg博弈在多项式时间内获得。

🎯

关键要点

  • 研究强化学习在噪声和对抗性攻击下的鲁棒性。
  • 分析在线操纵攻击的多种形式,包括状态攻击、观察攻击、行动攻击和奖励攻击。
  • 通过马尔可夫决策过程(MDP)建模攻击交互中的元级环境。
  • 攻击者设计隐蔽攻击以最大化预期收益,通常对应于减小受害者价值。
  • 攻击者可以在多项式时间内找到最优攻击策略。
  • 受害者的最优防御策略可通过解决随机Stackelberg博弈获得。
  • 防御问题是NP困难的,但在许多情况下最优马尔可夫防御策略可以在多项式时间内计算(学习)。
➡️

继续阅读