ETGL-DDPG:一种用于稀疏奖励连续控制的深度确定性策略梯度算法
原文中文,约2100字,阅读约需5分钟。发表于: 。本研究针对稀疏奖励的强化学习问题,提出了一种新颖的探索方法——${\epsilon}{t}$-greedy,旨在提高对不常访问状态的探索效率。此外,开发了双重经验回放缓冲框架GDRB,并实现了最长n步回报的计算。实验结果表明,ETGL-DDPG在标准基准测试中优于传统DDPG和其他先进算法,展示了新方法的有效性。
研究提出了一种新的探索方法$ ext{ε}_t$-greedy,解决稀疏奖励的强化学习问题。结合双重经验回放缓冲框架GDRB和最长n步回报计算,ETGL-DDPG在标准测试中表现优于传统DDPG。该方法通过提高探索效率,在稀疏奖励环境中展示了有效性,为强化学习提供了新工具。