小红花·文摘

本研究提出了一种新颖的分布感知投影梯度下降攻击（DAPGD），旨在解决深度强化学习中的观察信号不确定性问题。该方法通过利用分布相似性进行梯度扰动，综合整个策略分布。实验结果显示，DAPGD在机器人导航任务中的奖励下降效果比最佳基线提高了22.03%。