巡逻安全游戏:针对攻击者的自由度进行防御
本文研究了强化学习在噪声和对抗性攻击下的鲁棒性,分析了在线操纵攻击的多种形式。通过马尔可夫决策过程(MDP)模型,探讨攻击者如何设计隐蔽攻击以最大化收益。结果表明,攻击者可在多项式时间内找到最优策略。尽管防御问题是NP困难的,但受害者的最优防御策略可通过解决随机Stackelberg博弈在多项式时间内获得。
原文中文,约400字,阅读约需1分钟。
本文研究了强化学习在噪声和对抗性攻击下的鲁棒性,分析了在线操纵攻击的多种形式。通过马尔可夫决策过程(MDP)模型,探讨攻击者如何设计隐蔽攻击以最大化收益。结果表明,攻击者可在多项式时间内找到最优策略。尽管防御问题是NP困难的,但受害者的最优防御策略可通过解决随机Stackelberg博弈在多项式时间内获得。