通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

深度强化学习中的估计偏差问题以及引入的解决机制，包括新的双 TD 规范化的演员 - 评论家（TDR）方法，通过结合分布学习、长 N 步替代阶段奖励（LNSS）方法等 DRL 改进，我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线，在挑战性环境中显著提升了 TD3 和 SAC 的性能，使其与...

该文介绍了深度强化学习中的估计偏差问题以及解决机制，包括新的双 TD 规范化的演员 - 评论家（TDR）方法。通过结合分布学习、长 N 步替代阶段奖励（LNSS）方法等 DRL 改进，基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线，在挑战性环境中显著提升了 TD3 和 SAC 的性能，并且还通过多项指标改善了 D4PG 的性能，达到了新的领先水平。

DRL改进 TDR方法估计偏差问题性能提升深度强化学习