线性规划的费舍尔 - 饶梯度流和状态 - 动作自然策略梯度
研究了基于状态 - 动作分布的费舍尔信息矩阵的另一种自然梯度方法,并表明其具有线性收敛性和几何相关的错误估计,改善了现有结果。进一步扩展了这些结果,对于扰动费舍尔 - 劳梯度流和自然梯度流,展示了次线性收敛性以及近似误差的界限。
本文研究了具有Polish状态和动作空间的无限时段熵正则化马尔可夫决策过程的Fisher-Rao策略梯度流的全球收敛性。证明了梯度流的全球适定性和指数级收敛到最优策略。同时揭示了自然策略梯度流的性能。利用性能差分引理和梯度与镜像下降流之间的对偶关系克服了挑战。