本文介绍了一种名为Safe Adversarial Trained Actor Critic(SATAC)的算法,用于在数据覆盖有限的情况下进行离线强化学习的训练。SATAC通过一个两个玩家的Stackelberg游戏进行操作,具有一个精细的目标函数。该算法在离线RL设置中可以产生优于行为策略的策略,并具有实际的鲁棒性。在实验中,SATAC在连续控制环境中的任务中表现优于所有基准算法。
研究提出PRI算法,用于在线约束马尔可夫决策过程中的最优策略识别问题。该算法基于CMDP的有限随机性属性,实现了无模型的高概率接近最优策略的学习,并提供了改进的后悔损失和约束违规的保证。
完成下面两步后,将自动完成登录并继续当前操作。