巡逻安全游戏:针对攻击者的自由度进行防御
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了巡逻安全游戏中的机器人巡逻问题,提出了一种新颖的方法来优化巡逻计划,以最小化攻击者的收益。通过将该问题转化为组合最小化问题,我们发现增加巡逻计划的随机性有助于降低攻击者的期望收益,实验结果表明该方法在真实世界数据集上表现优于现有技术。
本文研究了强化学习在噪声和对抗性攻击下的鲁棒性,分析了在线操纵攻击的多种形式。通过马尔可夫决策过程(MDP)模型,探讨攻击者如何设计隐蔽攻击以最大化收益。结果表明,攻击者可在多项式时间内找到最优策略。尽管防御问题是NP困难的,但受害者的最优防御策略可通过解决随机Stackelberg博弈在多项式时间内获得。