小红花·文摘

本文介绍了一种名为Safe Adversarial Trained Actor Critic（SATAC）的算法，用于在数据覆盖有限的情况下进行离线强化学习的训练。SATAC通过一个两个玩家的Stackelberg游戏进行操作，具有一个精细的目标函数。该算法在离线RL设置中可以产生优于行为策略的策略，并具有实际的鲁棒性。在实验中，SATAC在连续控制环境中的任务中表现优于所有基准算法。

离线 CMDPs 的对抗性训练的行动者评论家

BriefGPT - AI 论文速递 ·

研究提出PRI算法，用于在线约束马尔可夫决策过程中的最优策略识别问题。该算法基于CMDP的有限随机性属性，实现了无模型的高概率接近最优策略的学习，并提供了改进的后悔损失和约束违规的保证。

在线 CMDPs 中的无模型、后悔优化的最佳策略识别

BriefGPT - AI 论文速递 ·