小红花·文摘

本研究提出了一种基于泊松时钟模型的强化学习算法，克服了离散时间和状态的局限性，实现了连续时间下的学习和规划任务。研究探讨了线性贝尔曼完备性下的值迭代算法，提供了多项式时间复杂度的解决方案，并分析了样本复杂性和策略评估的有效性。