小红花·文摘

本研究探讨了大型语言模型在硬件可及性和能源消耗方面的高资源需求，并提出了一种后训练量化技术的系统评估。通过分析不同的量化方案，旨在实现高效推理。

Resource-Efficient Language Models: Quantization for Fast and Accessible Inference

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的后训练量化方法Pack-PTQ，旨在解决低比特情况下的准确性下降问题。通过自适应打包机制和混合精度量化，Pack-PTQ有效保留了块间依赖性，显著提升了量化性能。实验结果表明，其在2D图像和3D点云分类任务中优于现有技术。

Pack-wise Post-training Quantization: Advancing Post-training Quantization of Neural Networks through Pack-wise Reconstruction

BriefGPT - AI 论文速递 ·

本研究提出了一种新的混合精度后训练量化方法——任务-电路量化（TaCQ），通过将关键任务权重保持为16位，显著提高了在2至3位量化条件下的模型性能，同时仅增加了少量内存开销。

Task-Circuit Quantization: Compression through Knowledge Localization and Interpretability

BriefGPT - AI 论文速递 ·

本研究提出了一种后训练量化框架，通过细粒度分组和EM量化方案，将大语言模型的权重量化为1位，显著降低量化误差并提升性能。

Binary Weight and Activation Implementation for Large Language Models Using Post-Training Quantization

BriefGPT - AI 论文速递 ·

本研究提出了一种后训练量化框架，实现了3D医疗图像分割模型的8位量化，显著减少了模型大小和推理延迟，同时保持了性能，为资源受限的医疗成像应用提供了高效解决方案。

Post-Training Quantization for 3D Medical Image Segmentation: A Practical Study on Real Inference Engines

BriefGPT - AI 论文速递 ·

本研究提出了一种通道放松向量量化（CRVQ）技术，旨在降低大语言模型在资源受限设备上的计算成本，提升后训练量化性能，改进幅度达到38.9%，并支持灵活定制，拓宽了部署选项。

CRVQ: Channel Relaxation Vector Quantization for Extreme Compression of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新型后训练量化方法W4A8，结合4位权重量化和8位矩阵计算加速，提升大型语言模型的推理速度和准确性。通过块量化技术，实现几乎无损的6位量化，内存密度提高5倍。此外，研究介绍了激活引导量化框架Agile-Quant，优化边缘设备的推理速度，并提出了bitnet.cpp软件栈，显著提升1位大型语言模型的推理效率。

BitNet a4.8：1位大型语言模型的4位激活

BriefGPT - AI 论文速递 ·

后训练量化在视觉Transformer中受到关注，但现有方法常忽视权重和激活间的复杂依赖，导致量化误差。论文提出ERQ方法，通过减少激活和权重量化误差来优化。实验表明，ERQ在ViT-S上性能优于GPTQ，提升22.36%。

ERQ：32位转5位仅掉些许精度，来看看两段式后训练量化 | ICML 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

SmoothQuant是一种后训练量化解决方案，旨在提高大型语言模型（LLMs）的硬件效率，减少内存使用并加速推理。通过平滑激活异常值和优化权重，SmoothQuant实现了8位权重和激活量化，降低成本同时保持精度。相关方法如AdaDim和Agile-Quant进一步提升了模型性能和推理速度，解决了激活稀疏性问题，推动了LLMs在边缘设备上的应用。

旋转运行平滑：无训练激活平滑器用于准确的INT4推理

BriefGPT - AI 论文速递 ·

本文概述了大规模神经网络模型量化的原则、挑战和方法，强调了模型规模增长带来的计算和能源成本问题。探讨了后训练量化和量化感知训练技术，展示了如何在保持精度的同时降低模型规模，提高效率，以支持可持续的大规模模型部署。

The Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview

BriefGPT - AI 论文速递 ·

本研究提出了AlphaTuning方法，结合后训练量化与定向任务的精细调整，通过二进制编码量化和参数调整，在11种下游任务中实现高效微调。研究发现，分词器选择对多语言模型性能影响显著，使用英语分词器会导致性能下降和高成本。参数高效微调能提升低资源语言的性能，但可能对高资源语言产生负面影响。

在紧张的学术计算预算下进行语言适应：标记器交换有效且纯bfloat16足够

BriefGPT - AI 论文速递 ·

SmoothQuant是一种后训练量化解决方案，旨在提高大型语言模型的硬件效率，支持8位和4位权重量化，减少内存并加速推理。通过激活量化感知和混合数据格式，SmoothQuant+实现了无损量化，显著提升了吞吐量和准确度。同时，Agile-Quant框架和I-LLM方法进一步优化了边缘设备上的推理速度和计算效率，推动了移动AI的研究与应用。

移动量化：适用于设备语言模型的移动友好量化

BriefGPT - AI 论文速递 ·

本研究提出了一种统一的量化噪声和扩散扰动噪声的方法，显著提升了扩散模型的样本质量。通过引入量化感知的低秩适配器和新的后训练量化方法，优化了低位扩散模型的性能，解决了低位量化对模型性能的影响，展示了在资源有限场景中的优势。

高质量扩散模型的低比特浮点量化

BriefGPT - AI 论文速递 ·

本文介绍了多种针对视觉变换器（ViTs）的后训练量化（PTQ）方法，如ADFQ-ViT、SmoothQuant和IGQ-ViT。这些方法在图像分类、目标检测和实例分割任务中显著提高了性能，并在低位量化下实现接近无损的准确度，解决了ViTs在移动设备上的高计算需求问题。

DopQ-ViT：面向视觉 Transformer 的分布友好和异常值感知的后训练量化

BriefGPT - AI 论文速递 ·

本文介绍了多种视觉变换器的后训练量化方法，如PTQ4ViT、MGRQ和RepQuant，旨在提高量化准确度并降低计算需求。这些方法在ImageNet等任务上实现了接近无损的性能提升，尤其在低位量化下表现优异，显著提高了模型的实用性和效率。

视觉 Transformer 后训练量化的错误减少

BriefGPT - AI 论文速递 ·

本研究提出了QuIP#和GPTVQ等新方法，显著改善了大型语言模型的量化效果。通过创新技术实现低精度量化，提升了模型的准确性和处理效率，尤其在LLaMA-2上提高了7.89%的准确率。此外，研究探讨了后训练量化的多种方法，提出了SmoothQuant+和APTQ等新技术，优化了模型性能和内存使用。

QTIP: 用格点化和不相关处理的量子化

BriefGPT - AI 论文速递 ·

本文提出了多种后训练量化方法（如SQ-b、OPT-m和MPTQ-ViT），在ImageNet数据集上显著提高了视觉变换器（ViTs）的准确性。这些方法有效降低了内存和计算成本，适用于移动设备，并在多个基准模型上验证了其有效性。

MGRQ: 视觉转换器训练后的混合粒度重建量化

BriefGPT - AI 论文速递 ·

本文介绍了针对扩散变换器（DiTs）的量化方法，包括混合浮点量化（HQ-DiT）和后训练量化（PTQ4DiT）。通过通道平衡和校准技术，实现高效量化，提升模型在低精度下的性能。此外，研究提出了多种量化框架和优化方法，显著提高了移动设备上的计算效率和准确性。

ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

BriefGPT - AI 论文速递 ·

最近的研究探讨了深度学习中的后训练量化，特别是FP8和FP4格式在大型语言模型中的应用。研究表明，FP8在自然语言处理和计算机视觉任务中优于INT8，且通过激活量化感知和序列长度感知校准等新技术，显著提高了模型的准确性和计算效率。这些进展为资源受限环境中的高效部署提供了可能。

从学生中学习：应用 t - 分布来探索 LLM 的准确和高效格式

BriefGPT - AI 论文速递 ·

本文介绍了一种后训练量化方法，旨在提高大型语言模型的计算效率，特别是4位权重和8位激活的量化技术。通过激活量化感知缩放和序列长度感知校准等创新技术，显著提升了模型的准确度和硬件效率，解决了低精度微调中的异常值问题，增强了模型在实际应用中的可行性。

使用激活正则化减轻离群通道对于语言模型量化的影响

BriefGPT - AI 论文速递 ·