小红花·文摘

本文探讨了在马尔可夫决策过程（MDP）中应用强化学习的多种算法，重点在于最小化后悔值。研究提出了新算法，如PSRL和UCRL-Factored，显著提高了学习效率，并分析了不同条件下的遗憾界限。针对线性和非稳态MDP的算法优化了遗憾性能，并提出了新的结构性假设，以应对连续状态和动作空间的挑战。

BriefGPT - AI 论文速递 ·

该研究提出了一种基于神经网络的预训练模型，具有广泛的零样本能力，适用于离散或连续状态空间的多动作问题。该模型解决了以往研究中在处理连续状态时需要重新训练等限制，具有理论收敛保证和实证优势。

BriefGPT - AI 论文速递 ·

该文介绍了一个高效的模型学习和规划框架，适用于具有连续状态和动作空间以及非高斯转移模型的随机域。该框架通过估计局部模型来解决规划问题，专注于最相关的状态和最有价值的动作。理论分析证明该方法有效且渐近最优。实验结果表明该算法在模拟的多模式推动问题上表现出了有效性。

BriefGPT - AI 论文速递 ·