小红花·文摘

Meta AI 发布 Llama Guard 3-1B-INT4：用于人机对话的紧凑型高性能 AI 调节模型

实时互动网 ·

大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案，特别是sub-4 bit量化的挑战。通过per-IC量化和AdaDim框架，解决了激活异常值的问题。AdaDim适应不同权重敏感性，改进了Round-To-Nearest和GPTQ方法，在语言建模基准测试中表现优异，在MMLU和HumanEval上分别提高了4.7%和10%。

旋转运行平滑：无训练激活平滑器用于准确的INT4推理

BriefGPT - AI 论文速递 ·

本文介绍了一种内存高效的预训练语言模型适应方法，通过矩阵分解和量化部分的更新，实现了对预训练模型的适应。实验结果表明，该方法优于其他基准方法，并能实现更激进的量化。

Q-GaLore: 基于 INT4 投影和层自适应低秩梯度的量化 GaLore

BriefGPT - AI 论文速递 ·

本论文提出了一种通过自动 INT4 纯权重量化流和设计高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理的有效方法。该方法展示了对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Endor：用于离线 LLM 推断的硬件友好的稀疏格式

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型中的量化方法，发现INT4量化在生成类别任务中表现不佳，而FP6量化在准确性和多功能性方面具有优势。提出了一种用于FP6的新设计，以适应不同的AI硬件并实现最佳性能。通过该设计，FP6可以成为当前语言模型中使用的有希望的4位量化方法之一。

FP6-LLM: 通过 FP6 中心算法系统共同设计高效服务大型语言模型

BriefGPT - AI 论文速递 ·