小红花·文摘

本研究提出了一种新的价值迭代算法，旨在提高线性马尔可夫决策过程的计算效率。该算法通过计算访问过的状态集的价值函数最小值，显著提升了效率，并保持了遗憾界限。这一方法有助于在广泛状态空间中有效应用强化学习。