小红花·文摘

本论文提出了一种通过自动 INT4 纯权重量化流和设计高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理的有效方法。该方法展示了对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。