小红花·文摘

本研究探讨了长距离注意力机制在大型语言模型中的应用，发现局部窗口注意力机制能有效完成任务。提出了新的H3 SSM层和Infini-attention技术，提升了模型的训练效率和上下文学习能力。Mamba模型在多项任务中表现优于传统Transformer，尤其在长期推理和上下文处理上。研究还提出了Rodimus及其增强版本Rodimus+，显著降低了内存使用并提高了准确性。