本研究提出了一种新颖的分布感知投影梯度下降攻击(DAPGD),旨在解决深度强化学习中的观察信号不确定性问题。该方法通过利用分布相似性进行梯度扰动,综合整个策略分布。实验结果显示,DAPGD在机器人导航任务中的奖励下降效果比最佳基线提高了22.03%。
完成下面两步后,将自动完成登录并继续当前操作。