小红花·文摘

本文介绍了一种名为Safe Adversarial Trained Actor Critic（SATAC）的算法，用于在数据覆盖有限的情况下进行离线强化学习的训练。SATAC通过一个两个玩家的Stackelberg游戏进行操作，具有一个精细的目标函数。该算法在离线RL设置中可以产生优于行为策略的策略，并具有实际的鲁棒性。在实验中，SATAC在连续控制环境中的任务中表现优于所有基准算法。