离线 CMDPs 的对抗性训练的行动者评论家
原文中文,约600字,阅读约需2分钟。发表于: 。我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法,用于在数据覆盖有限的情况下,对离线强化学习(RL)中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg...
本文介绍了一种名为Safe Adversarial Trained Actor Critic(SATAC)的算法,用于在数据覆盖有限的情况下进行离线强化学习的训练。SATAC通过一个两个玩家的Stackelberg游戏进行操作,具有一个精细的目标函数。该算法在离线RL设置中可以产生优于行为策略的策略,并具有实际的鲁棒性。在实验中,SATAC在连续控制环境中的任务中表现优于所有基准算法。