掩蔽生成先验改善世界模型序列建模能力
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对深度强化学习中模型有效性不足的问题,提出了基于掩蔽生成先验的GIT-STORM模型,通过 Transformer 架构改进世界模型序列建模。研究结果在Atari 100k基准测试中显示出显著的性能提升,并首次将Transformer应用于连续动作环境,为模型的高效性和控制任务提供了新的解决方案。
近年来,STORM模型结合Transformer和变分自编码器,在视觉强化学习中表现优异。在Atari 100k测试中,其成绩超过人类平均水平126.7%。使用单个NVIDIA GeForce RTX 3090显卡训练,仅需4.3小时,效率很高。