本文研究了恶意篡改成本信号下的强化学习,通过对 Q-learning 的研究,证明了其在隐蔽攻击和成本信号有限篡改下仍能收敛。提出了鲁棒的代价区间,给出了关于篡改代价的条件,最后通过案例研究展示了强化学习的潜在危险。
完成下面两步后,将自动完成登录并继续当前操作。