本文探讨了离线强化学习中的多目标优化,提出了Decision ConvFormer(DC)和Decision Mamba(DM)模型,显著提升了模型性能和样本利用效率。研究表明,Mamba架构在处理复杂任务时具有优势,并通过实验验证了其在决策制定中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。