小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新的Q学习算法，解决了在接近一的折扣因子下收敛缓慢的问题。该算法在深度强化学习中表现出更低的偏差，并在大规模问题上显示出有效性。

Double Continuous Over-Relaxation Q-Learning and Its Extension to Deep Reinforcement Learning

BriefGPT - AI 论文速递 ·