本文介绍了有效收敛概念和DDPG算法,对比实验发现有效收敛的critic loss波动较大,无效收敛的反而很快收敛到0附近。作者认为这是因为critic和actor相互依赖,所以critic loss不应该收敛很快。
完成下面两步后,将自动完成登录并继续当前操作。