小红花·文摘

本文提出了一种快速算法，利用采样技术解决折扣马尔可夫决策过程的近似求解，并证明了其收敛性和复杂度。结合经典价值迭代与方差约减技术，改进了算法性能，实现线性收敛性和渐进最优性。同时，研究了强化学习中的样本复杂度问题，提出了新型策略梯度算法以提高采样效率，并通过数值实验验证了其有效性。