Enhancing Transformer World Models for Data-Efficient Reinforcement Learning
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新型模型基础的强化学习算法,显著提高了样本效率。在Craftax-classic基准测试中获得67.4%的奖励,超越了DreamerV3和人类表现。该方法结合了CNN和RNN,并通过多项改进提升了模型性能。
🎯
关键要点
- 本研究提出了一种新型模型基础的强化学习算法,显著提高了样本效率。
- 在Craftax-classic基准测试中获得67.4%的奖励,超越了DreamerV3(53.2%)和人类表现(65.0%)。
- 该方法结合了CNN和RNN的新型策略架构。
- 通过“热身的动态”、“最近邻标记器”和“区块教师强制”等三项改进提升了模型表现。
🏷️
标签
➡️