本论文提出了一种高效的方法,通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理。该方法对多种流行 LLM 的普适性,并展示了在 CPU 上的极高推理效率。
完成下面两步后,将自动完成登录并继续当前操作。