在令牌世界中学习玩 Atari 游戏

📝

内容提要

基于模型的增强学习代理利用变换器已经显示出更好的样本效率,因为它们能够对扩展的上下文进行建模,从而得到更准确的世界模型。然而,对于复杂的推理和规划任务,这些方法主要依赖于连续表示,这使得对实际世界的离散属性,例如不可插值的不相交对象类的建模变得复杂。在这项工作中,我们引入了基于变换器学习的离散抽象表示(DART),一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器...

🏷️

标签

➡️

继续阅读