小红花·文摘 - 小红花技术领袖俱乐部

本研究提出LServe系统，旨在解决长序列大型语言模型在预填充和解码阶段的计算复杂度和内存占用问题。通过混合稀疏注意力，该系统使预填充速度提升近2.9倍，解码速度提升1.3-2.1倍，同时保持长序列的精度。

LServe: Efficient Long-Sequence LLM Service with Unified Sparse Attention

BriefGPT - AI 论文速递 ·

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

机器之心 ·