本研究探讨了连续强化学习中的行动操控攻击,提出了一种名为LCBT的黑盒攻击算法,该算法利用蒙特卡洛树搜索以次线性成本高效引导智能体收敛至目标策略,显示出安全隐患和应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。