突破障碍:平滑 DRL 代理程序中的增强效用和鲁棒性
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了 S-DQN 和 S-PPO 方法,通过对现有平滑代理的改进,在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证,平均因子分别为 $2.16imes$ 和 $2.13imes$。此外,我们引入了 Smoothed Attack,比现有对抗性攻击方法降低平滑代理奖励的效果提高了 $1.89imes$。
DreamSmooth是一种奖励平滑方法,通过学习预测时间上平滑的奖励来提高基于模型的强化学习的性能。实证结果表明,DreamSmooth在长时间范围的稀疏奖励任务上表现出最先进的性能,并在常见的基准测试中也表现良好。