小红花·文摘

我们提出了 PoliFormer（Policy Transformer），这是一个使用强化学习进行训练的 RGB 室内导航代理，采用规模化的端到端训练，能够在真实世界中无需适应即可进行泛化，尽管它是纯在模拟环境中训练的。PoliFormer 使用基本的视觉 Transformer 编码器和因果 Transformer...