本研究提出了一种显著性驱动的动态令牌剪枝框架(SDTP),旨在解决大规模语言模型在长序列推理中的计算复杂性问题。SDTP通过分层剪枝65%的输入令牌,显著降低计算量,提高推理速度,同时保持模型性能。
本文提出了一种新方法,利用神经网络的内隐记忆来缓解训练中的遗忘现象,并优化训练数据批次,以实现高效训练。研究表明,该方法在多种学习任务中表现优异,尤其在持续学习和长序列推理方面显著提高了性能。
该研究探讨了Mamba框架在决策变压器架构中的应用,提出了Decision Mamba和Hierarchical Decision Mamba,显著提升了Transformer模型在多种决策环境中的性能。Mamba-ND扩展了Mamba架构,表现出与先进方法竞争的能力,尤其在长序列推理和多模态任务中优于传统Transformer,提供了新的研究方向和应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。