离线 CMDPs 的对抗性训练的行动者评论家
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文介绍了一种名为Safe Adversarial Trained Actor Critic(SATAC)的算法,用于在数据覆盖有限的情况下进行离线强化学习的训练。SATAC通过一个两个玩家的Stackelberg游戏进行操作,具有一个精细的目标函数。该算法在离线RL设置中可以产生优于行为策略的策略,并具有实际的鲁棒性。在实验中,SATAC在连续控制环境中的任务中表现优于所有基准算法。
🎯
关键要点
- 提出了一种名为Safe Adversarial Trained Actor Critic (SATAC)的算法,用于有限数据覆盖下的离线强化学习训练。
- SATAC作为一个两个玩家的Stackelberg游戏进行操作,具有精细的目标函数。
- 演员优化策略以对抗两个敌对训练的价值评论者,专注于演员性能低于行为策略的情况。
- 理论上证明SATAC可以产生优于行为策略的策略,同时保持相同的安全水平。
- SATAC在广泛的超参数范围内保证策略改进,显示出实际的鲁棒性。
- SATAC在连续控制环境中的一系列任务中表现优于所有基准算法,验证了其理论性能。
➡️