基于Csiszár类型Tsallis熵的神经网络优化线性化势函数设计
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究了离散折扣马尔可夫决策过程中的熵正则化误差,证明其在逆正则强度下以指数级别减小,并提供了梯度流与最优策略的关系,显示整体误差随迭代次数的平方根呈指数衰减。
🎯
关键要点
-
研究了离散折扣马尔可夫决策过程中的熵正则化误差。
-
证明了该误差在逆正则强度下以指数级别减小。
-
在加权KL散度和值函数中均具有问题特定的指数。
-
使用黎曼度量计算熵正则化马尔可夫决策过程的解与未正则化奖励的梯度流之间的对应关系。
-
提供了匹配上界的下界,以多项式因子缩放。
-
确定了梯度流的极大熵最优策略的极限。
-
刻画了与Kakade梯度流对应的自然策略梯度方法的时间连续版本的隐含偏差。
-
整体误差随迭代次数的平方根呈指数级别衰减,改进了现有的亚线性保证。
➡️