小红花·文摘

本研究提出极化稀疏性，以满足大规模语言模型推理中的高通量和低延迟需求。通过优化注意力层的稀疏性，开发出高效的GPU内核，实现推理速度提升达2.2倍，为大规模LLM的快速部署提供了有效方案。