小红花·文摘

本文探讨了量化在大模型推理中的重要性，强调通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。量化提高了推理效率，降低了成本，使得在有限硬件上运行大型模型成为可能。文章介绍了不同数据类型的特点、量化算法及其应用，强调了量化在长上下文和大批量推理中的优势。

【大模型基础设施工程】14：量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ

土法炼钢兴趣小组的博客 ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现几乎零浪费，支持量化和多种上下文长度，适用于神经元设备。

【vLLM 学习】Neuron Int8 Quantization

HyperAI超神经 ·

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

美团技术团队 ·

美团开源了INT8无损量化的DeepSeek R1模型，提升了在A100等老显卡上的部署能力。通过分块和通道量化技术，模型在精度上几乎无损，推理吞吐量提高了50%。该模型已在Hugging Face发布，方便用户使用。

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

量子位 ·

老显卡福音！美团技术团队开源首发INT8无损满血版DeepSeek R1

机器之心 ·

本研究探讨了大型语言模型量化的准确性与性能权衡，提出了FP8、INT8和INT4等量化格式的改进，其中INT8量化仅导致1-3%的准确性下降，为实际部署提供了指导。

“给我 BF16 否则让我去死”？大型语言模型量化中的准确性与性能权衡

BriefGPT - AI 论文速递 ·

为什么在Go中使用不同的整型

DEV Community ·

处理大型数据集时，使用int8和int16可以让CPU更有效地打包变量。对于文件格式或协议，使用int16和int32可能会占用更多寄存器或寄存器空间。

为什么在 Go 中使用不同的 int 类型：

DEV Community ·

本文介绍了FlashAttention，一种高效的注意力算法，显著提升了Transformer模型的速度和性能。通过优化内存使用和引入新技术，FlashAttention在大型语言模型中实现了更高效的推理，减少了内存需求并提高了计算速度。研究还探讨了量化技术和新型推理框架，推动了大型语言模型在内存有限设备上的应用。

INT-FlashAttention：使Flash Attention适用于INT8量化

BriefGPT - AI 论文速递 ·

TensorRT中的int8量化

李文举 ·