ACT:通过优势调节实现决策变换的动态规划赋能
原文中文,约300字,阅读约需1分钟。发表于: 。使用决策转换器(DT)和动态规划相结合的方法(ACT),克服了动态规划的弱点,通过有效的轨迹拼接和鲁棒的动作生成,在环境随机性方面表现出色,优于各种基准方法。
本文介绍了一种新的离线强化学习方法——图决策Transformer(GDT),使用因果图建模输入序列,处理细粒度空间信息。实验表明,GDT在基于图像的Atari和OpenAI Gym上的性能可以与最先进的离线强化学习方法相媲美或超越。
使用决策转换器(DT)和动态规划相结合的方法(ACT),克服了动态规划的弱点,通过有效的轨迹拼接和鲁棒的动作生成,在环境随机性方面表现出色,优于各种基准方法。
本文介绍了一种新的离线强化学习方法——图决策Transformer(GDT),使用因果图建模输入序列,处理细粒度空间信息。实验表明,GDT在基于图像的Atari和OpenAI Gym上的性能可以与最先进的离线强化学习方法相媲美或超越。