Q学习中的时间尺度分离:扩展TD($\triangle$)以进行动作值函数分解
📝
内容提要
该研究解决了Q学习在长远奖励环境中偏差与方差难以调和的问题。通过引入Q($\Delta$)-学习,作为TD($\Delta$)在Q学习框架中的扩展,通过将Q($\Delta$)-函数分解为不同的折扣因子,实现了在多个时间尺度上的高效学习。实证分析表明,Q($\Delta$)-学习在标准基准测试中优于传统Q学习和TD学习方法,具有更好的学习稳定性和收敛速度。
🏷️
标签
➡️