将多模态输入令牌混合器整合到基于Mamba的决策模型中:决策MetaMamba
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了RCTDM在处理有限次优轨迹的离线强化学习中所面临的挑战,通过引入决策MetaMamba模型,采用输入令牌混合器提取短序列中的模式,并使用状态空间模型(SSM)选择性地结合远距离序列的信息。研究表明,DMM在多个数据集上的表现优异,验证了基于SSM的决策模型在未来的发展中可以带来更好的结果。
本研究引入决策MetaMamba模型解决了RCTDM在离线强化学习中的挑战,DMM在多个数据集上表现优异,验证了基于SSM的决策模型的潜力。