小红花·文摘

本论文提出了一种高效的方法，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理。该方法对多种流行 LLM 的普适性，并展示了在 CPU 上的极高推理效率。