小红花·文摘

本研究利用Intel CPU的高级矩阵扩展（AMX）和非结构稀疏性，解决了大语言模型在推理阶段的内存限制和解码速度慢的问题，实现了1.42倍的延迟减少，并提供了开源稀疏内核方案，提升了大语言模型在常规计算平台上的可访问性。