小红花·文摘

本文介绍了门控Transformer-XL（GTrXL）在部分可观察强化学习中的应用，展示了其在多任务基准测试中的优越性能。通过Actor-Learner Distillation，模型在保持推理速度的同时提高了样本效率。此外，提出了Block-Recurrent Transformer和xLSTM模型，解决了传统模型的瓶颈问题，并在多个基准测试中表现出色。研究还关注开放源码社区的数据集稀缺问题，发布了xLAM系列模型以提升AI代理的性能。