MaxEnt Model Correction in Reinforcement Learning
原文约100字/词,阅读约需1分钟。发表于: 。我们提出并理论分析了一种在强化学习中使用近似模型进行规划的方法,可以减少模型误差的不利影响,并且如果模型足够准确,还可以加速收敛到真实值函数。其中一个关键组成部分是基于最大熵密度估计形式的 MaxEnt 模型校正(MoCo)过程,该过程根据下一个状态的分布来纠正模型。基于 MoCo,我们引入了模型修正值迭代(MoCoVI)算法及其基于采样的变体 MoCoDyna。我们表明,MoCoVI 和...
本文介绍了一种使用近似模型进行强化学习规划的方法,通过MaxEnt模型校正和MoCoDyna算法,可以减少模型误差并加速收敛。实验证明该方法比传统无模型算法收敛速度更快且准确。