Meta推出了Llama Guard 3-1B-INT4模型,以应对生成式人工智能系统在内容安全方面的挑战。该模型体积小、性能强,适合移动设备,具备出色的多语言能力和安全审核功能,标志着生成式AI安全审核的重大进展。
大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案,特别是sub-4 bit量化的挑战。通过per-IC量化和AdaDim框架,解决了激活异常值的问题。AdaDim适应不同权重敏感性,改进了Round-To-Nearest和GPTQ方法,在语言建模基准测试中表现优异,在MMLU和HumanEval上分别提高了4.7%和10%。
本文介绍了一种内存高效的预训练语言模型适应方法,通过矩阵分解和量化部分的更新,实现了对预训练模型的适应。实验结果表明,该方法优于其他基准方法,并能实现更激进的量化。
本论文提出了一种通过自动 INT4 纯权重量化流和设计高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理的有效方法。该方法展示了对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性,并显示了在 CPU 上的极高推理效率。
本研究探讨了大型语言模型中的量化方法,发现INT4量化在生成类别任务中表现不佳,而FP6量化在准确性和多功能性方面具有优势。提出了一种用于FP6的新设计,以适应不同的AI硬件并实现最佳性能。通过该设计,FP6可以成为当前语言模型中使用的有希望的4位量化方法之一。
完成下面两步后,将自动完成登录并继续当前操作。