通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误
原文中文,约400字,阅读约需1分钟。发表于: 。深度强化学习中的估计偏差问题以及引入的解决机制,包括新的双 TD 规范化的演员 - 评论家(TDR)方法,通过结合分布学习、长 N 步替代阶段奖励(LNSS)方法等 DRL 改进,我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线,在挑战性环境中显著提升了 TD3 和 SAC 的性能,使其与...
该文介绍了深度强化学习中的估计偏差问题以及解决机制,包括新的双 TD 规范化的演员 - 评论家(TDR)方法。通过结合分布学习、长 N 步替代阶段奖励(LNSS)方法等 DRL 改进,基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线,在挑战性环境中显著提升了 TD3 和 SAC 的性能,并且还通过多项指标改善了 D4PG 的性能,达到了新的领先水平。