小红花·文摘 - 小红花技术领袖俱乐部

Native Sparse Attention（NSA）：重新定义长上下文建模的效率与性能

Native Sparse Attention（NSA）：重新定义长上下文建模的效率与性能

我爱自然语言处理 ·

大型语言模型中提出了一种无损加速的早期退出推理方法（EESD），通过在前N层引入早期退出结构，利用部分模型生成初步令牌，并通过自蒸馏提高质量。新机制采用汤普森采样自动调节生成过程，实验显示解码时显著加速。

QSpec：使用补充量化方案的投机解码

BriefGPT - AI 论文速递 ·

介绍了dReLU激活函数，用于改善大型语言模型的激活稀疏性和性能。通过稀疏化神经元，实现了2-5倍的解码加速。手机上每秒可实现11个标记的推理速度。

第一激活至关重要：大型语言模型中无训练动态激活的方法

BriefGPT - AI 论文速递 ·