基于利普希茨有界策略网络的强化学习的鲁棒性
原文中文,约300字,阅读约需1分钟。发表于: 。该研究利用深度强化学习探讨了鲁棒策略网络的优势,通过分析其在振荡摆和 Atari Pong 等问题上的实证性能和稳健性,证明了具有小 Lipschitz 界限的策略网络相比由普通多层感知机或卷积神经网络组成的无约束策略在扰动、随机噪声和有针对性的对抗攻击方面更加稳健。此外,研究还发现选择一个具有非保守的 Lipschitz...
该研究使用深度强化学习研究了鲁棒策略网络的优势,证明了具有小 Lipschitz 界限的策略网络在扰动、随机噪声和对抗攻击方面更加稳健。研究还发现选择具有非保守的 Lipschitz 界限和具有表达力的非线性层结构的策略参数化方法可以更好地平衡性能和稳健性的权衡。