无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

本文提出一种基于策略优化的算法，通过简单高效的收缩机制替代了昂贵的探索预热阶段，实现了在两种基本设置下的最优遗憾保证，即全信息反馈的对抗性损失和赌博反馈的随机损失。

本文介绍了在tabular Markov决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，实现了更优的损失。同时，使用Tsallis Entropy和Shannon Entropy regularizer来保证最坏情况下的保障。在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。