小红花·文摘

通过比较决策Transformer（DT）和基于演员-评论者结构与经验回放的现有方法，研究发现DT在学习效率、分布转移缓解和零-shot泛化方面具有优势，但在监督参数更新时会加剧遗忘问题。引入多头DT（MH-DT）和低秩自适应DT（LoRA-DT）以减轻遗忘问题。实验结果表明，该方法在增强学习能力和内存效率方面优于现有的CORL基准。