小红花·文摘

本文介绍了两种新的强化学习算法：期望延迟深度确定性策略梯度（ExpD3）和偏差利用 - 双延迟深度确定性策略梯度（BE-TD3）。这些算法在连续控制任务中表现出有效性，并超越了现有方法。