ETGL-DDPG：一种用于稀疏奖励连续控制的深度确定性策略梯度算法

本研究针对稀疏奖励的强化学习问题，提出了一种新颖的探索方法——${\epsilon}{t}$-greedy，旨在提高对不常访问状态的探索效率。此外，开发了双重经验回放缓冲框架GDRB，并实现了最长n步回报的计算。实验结果表明，ETGL-DDPG在标准基准测试中优于传统DDPG和其他先进算法，展示了新方法的有效性。

研究提出了一种新的探索方法$ ext{ε}_t$-greedy，解决稀疏奖励的强化学习问题。结合双重经验回放缓冲框架GDRB和最长n步回报计算，ETGL-DDPG在标准测试中表现优于传统DDPG。该方法通过提高探索效率，在稀疏奖励环境中展示了有效性，为强化学习提供了新工具。

$ ext{ε}_t$-greedy ETGL-DDPG GDRB 强化学习稀疏奖励算法