离线 CMDPs 的对抗性训练的行动者评论家

我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法，用于在数据覆盖有限的情况下，对离线强化学习（RL）中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg...

本文介绍了一种名为Safe Adversarial Trained Actor Critic（SATAC）的算法，用于在数据覆盖有限的情况下进行离线强化学习的训练。SATAC通过一个两个玩家的Stackelberg游戏进行操作，具有一个精细的目标函数。该算法在离线RL设置中可以产生优于行为策略的策略，并具有实际的鲁棒性。在实验中，SATAC在连续控制环境中的任务中表现优于所有基准算法。