土法炼钢兴趣小组的博客 ·

GPTQ

💡 原文中文，约16200字，阅读约需39分钟。

📝

内容提要

本文探讨了量化在大模型推理中的重要性，强调通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。量化提高了推理效率，降低了成本，使得在有限硬件上运行大型模型成为可能。文章介绍了不同数据类型的特点、量化算法及其应用，强调了量化在长上下文和大批量推理中的优势。

🎯

关键要点

量化通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。
量化提高了推理效率，降低了成本，使得在有限硬件上运行大型模型成为可能。
量化在长上下文和大批量推理中具有明显优势，能够扩展批量和上下文长度。
不同数据类型（如FP8、INT4等）在量化中各有特点，适用于不同场景。
PTQ（训练后量化）和QAT（量化感知训练）是两种主要的量化方法，前者在生产部署中更为常见。
KV Cache的量化对于长上下文和大批量推理场景尤为重要，能够显著节省显存。
量化的粒度选择（如per-tensor、per-channel等）会影响模型的精度和计算开销。
硬件支持不同的量化格式，选择合适的硬件和引擎对于实现高效推理至关重要。

❓

延伸问答

量化在大模型推理中有什么重要性？

量化通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求，提高推理效率，降低成本，使得在有限硬件上运行大型模型成为可能。

不同数据类型在量化中有哪些特点？

不同数据类型如FP8、INT4等在量化中各有特点，适用于不同场景，FP8适合权重和激活，INT4则在消费卡上更为常见。

PTQ和QAT的主要区别是什么？

PTQ（训练后量化）不更新权重梯度，只用少量校准数据进行量化，而QAT（量化感知训练）在训练过程中插入fake-quant算子，使模型适应量化误差。

KV Cache的量化有什么优势？

KV Cache的量化对于长上下文和大批量推理场景尤为重要，能够显著节省显存，提升推理效率。

量化的粒度选择如何影响模型性能？

量化的粒度选择（如per-tensor、per-channel等）会影响模型的精度和计算开销，选择合适的粒度可以在精度和效率之间取得平衡。

如何选择合适的硬件支持量化？

选择合适的硬件和引擎对于实现高效推理至关重要，不同硬件支持不同的量化格式，需根据具体需求进行选择。

🏷️

继续阅读

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
每家公司的首个人工智能战略都应该是技能库
企业在实施人工智能时，首要任务是建立“技能图书馆”，记录优秀员工的工作流程和经验，将其转化为可重复使用的技能，以提升AI的实用性和效率，帮助公司更好地利用人工智能。
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
Endava如何围绕AI代理重新设计软件交付
Endava是一家全球技术服务公司，专注于利用AI解决复杂商业问题。公司重新设计工作流程，推动AI在软件交付和日常运营中的应用，提升效率。AI不仅被开发团...
AI对话开发需要自建吗?还是选开源好
在AI对话系统开发中，选择自建还是开源框架需综合考虑成本、周期和团队能力。自建系统提供完全掌控，但成本高、周期长；开源框架启动快，但灵活性受限。理想选择是...