深度双 Q 学习在演员评论方法中的估计偏差利用

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文介绍了两种新的强化学习算法:期望延迟深度确定性策略梯度(ExpD3)和偏差利用 - 双延迟深度确定性策略梯度(BE-TD3)。这些算法在连续控制任务中表现出有效性,并超越了现有方法。

原文中文,约500字,阅读约需1分钟。
阅读原文