深度双 Q 学习在演员评论方法中的估计偏差利用
原文中文,约500字,阅读约需1分钟。发表于: 。本文介绍了创新的强化学习方法,重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差,使用深度双 Q 学习。我们提出了两种新算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。ExpD3 旨在通过单个 $Q$ 估计值减少过高估计的偏差,从而在计算效率和性能之间取得平衡,而 BE-TD3...
本文介绍了两种新的强化学习算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。这些算法在连续控制任务中表现出有效性,并超越了现有方法。