ACT:通过优势调节实现决策变换的动态规划赋能

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的离线强化学习方法——图决策Transformer(GDT),使用因果图建模输入序列,处理细粒度空间信息。实验表明,GDT在基于图像的Atari和OpenAI Gym上的性能可以与最先进的离线强化学习方法相媲美或超越。

🎯

关键要点

  • 介绍了一种新的离线强化学习方法——图决策Transformer(GDT)。
  • GDT使用因果图建模输入序列,以捕捉不同概念之间的潜在依赖关系。
  • GDT促进时间和因果关系的学习。
  • 在图形输入处理中,GDT使用图形Transformer。
  • 在视觉任务中,GDT使用可选的序列Transformer处理细粒度空间信息。
  • 实验结果表明,GDT在基于图像的Atari和OpenAI Gym上的性能与最先进的离线强化学习方法相媲美或超越。
➡️

继续阅读