基于 Q 学习的概率布尔控制网络的最优虚假数据注入攻击

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了恶意篡改成本信号下的强化学习,通过对 Q-learning 的研究,证明了其在隐蔽攻击和成本信号有限篡改下仍能收敛。提出了鲁棒的代价区间,给出了关于篡改代价的条件,最后通过案例研究展示了强化学习的潜在危险。

🎯

关键要点

  • 研究恶意篡改成本信号下的强化学习,介绍攻击模型的量化框架。
  • Q-learning 算法在隐蔽攻击和成本信号有限篡改下仍能收敛。
  • 解析篡改代价与 Q 因素及学习代理策略之间的关系,提供攻击和防御策略的基本限制。
  • 提出鲁棒的代价区间,对手无法实现目标策略。
  • 给出篡改代价的条件,能够误导代理学习对手偏爱的策略。
  • 通过水库控制的数值案例研究,展示学习型控制系统中强化学习的潜在危险。
➡️

继续阅读