本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题,实现了1.42倍的延迟减少,并提供了开源稀疏内核方案,提升了大语言模型在常规计算平台上的可访问性。
完成下面两步后,将自动完成登录并继续当前操作。