将多模态输入令牌混合器整合到基于Mamba的决策模型中：决策MetaMamba

本研究解决了RCTDM在处理有限次优轨迹的离线强化学习中所面临的挑战，通过引入决策MetaMamba模型，采用输入令牌混合器提取短序列中的模式，并使用状态空间模型（SSM）选择性地结合远距离序列的信息。研究表明，DMM在多个数据集上的表现优异，验证了基于SSM的决策模型在未来的发展中可以带来更好的结果。

本研究引入决策MetaMamba模型解决了RCTDM在离线强化学习中的挑战，DMM在多个数据集上表现优异，验证了基于SSM的决策模型的潜力。

DMM RCTDM 决策MetaMamba模型基于SSM的决策模型离线强化学习