小红花·文摘

本研究提出了一种显著性驱动的动态令牌剪枝框架（SDTP），旨在解决大规模语言模型在长序列推理中的计算复杂性问题。SDTP通过分层剪枝65%的输入令牌，显著降低计算量，提高推理速度，同时保持模型性能。

Significance-Driven Dynamic Token Pruning for Large-Scale Language Models

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，利用神经网络的内隐记忆来缓解训练中的遗忘现象，并优化训练数据批次，以实现高效训练。研究表明，该方法在多种学习任务中表现优异，尤其在持续学习和长序列推理方面显著提高了性能。

学习随机数以实现可附加记忆系统，使人工智能在部署后能够获取新知识

BriefGPT - AI 论文速递 ·

该研究探讨了Mamba框架在决策变压器架构中的应用，提出了Decision Mamba和Hierarchical Decision Mamba，显著提升了Transformer模型在多种决策环境中的性能。Mamba-ND扩展了Mamba架构，表现出与先进方法竞争的能力，尤其在长序列推理和多模态任务中优于传统Transformer，提供了新的研究方向和应用潜力。

Mamba 在离线强化学习中是否与轨迹优化兼容？

BriefGPT - AI 论文速递 ·