本文介绍了两种新的强化学习算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。这些算法在连续控制任务中表现出有效性,并超越了现有方法。
完成下面两步后,将自动完成登录并继续当前操作。