决策变压器作为部分可观测连续控制的基础模型
原文中文,约300字,阅读约需1分钟。发表于: 。利用预训练的语言模型,探索决策变压器(DT)架构作为一种通用的控制器综合框架,同时展示了 DT 在各种控制任务上的能力,包括对非线性动力系统和部分微分方程进行控制,并具备出色的零样本泛化能力。
决策Transformer是一种创新算法,利用转换器架构在强化学习中的最新进展。研究者提出了一个序列建模框架,用于研究通过分层强化学习进行顺序决策的方法,并展示了DT作为该框架的一个特例。实证结果表明,所提出的算法在多个控制和导航基准测试中明显优于DT。研究者希望这项研究能推动转换器架构在强化学习领域的整合。