研究利用利普希茨正则化改善机器人控制任务中强化学习策略在物理硬件上的性能下降问题。实验结果显示,利普希茨正则化与快速梯度符号方法相结合可提高训练后的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。