小红花·文摘

本文探讨了多步时间差（TD）学习算法在“致命三合一”场景中的应用，证明了在足够大的采样时间范围内，n步TD学习算法能够收敛到有效解决方案，为无模型强化学习提供了理论支持。