本研究提出极化稀疏性,以满足大规模语言模型推理中的高通量和低延迟需求。通过优化注意力层的稀疏性,开发出高效的GPU内核,实现推理速度提升达2.2倍,为大规模LLM的快速部署提供了有效方案。
完成下面两步后,将自动完成登录并继续当前操作。