无需热身的策略优化:在线性马尔可夫决策过程中改进遗憾
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出一种基于策略优化的算法,通过简单高效的收缩机制替代了昂贵的探索预热阶段,实现了在两种基本设置下的最优遗憾保证,即全信息反馈的对抗性损失和赌博反馈的随机损失。
本文介绍了在tabular Markov决策过程中的策略优化方法,通过设计适当的正则化器、探索奖励和学习率,实现了更优的损失。同时,使用Tsallis Entropy和Shannon Entropy regularizer来保证最坏情况下的保障。在已知的转移条件下,通过利用对数障碍正则化器,在对抗情况下可以获得一阶损失保证。