小红花·文摘

本文探讨了量化在大模型推理中的重要性，强调通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。量化提高了推理效率，降低了成本，使得在有限硬件上运行大型模型成为可能。文章介绍了不同数据类型的特点、量化算法及其应用，强调了量化在长上下文和大批量推理中的优势。

【大模型基础设施工程】14：量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ

土法炼钢兴趣小组的博客 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化爬取流程。

DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

机器之心 ·

本研究提出了一种混合精度策略，用于量化FP4精度的训练方法，旨在解决大型语言模型训练中的计算需求问题。实验结果表明，该策略在降低计算成本的同时，能够达到与BF16和FP8相当的准确性。

Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models

BriefGPT - AI 论文速递 ·

微软推出FP4训练框架，能在相同超参数下实现与BF16相当的训练效果，降低存储和计算资源需求。该框架支持最大130亿参数的模型，采用FP8模拟FP4，提升训练效率，并在反向传播中引入可微分梯度估计方法，确保训练稳定性。

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

量子位 ·

英伟达发布的迷你超算Project DIGITS引发争议，专家批评其FP4算力宣传不实，认为性能与250美元显卡相当。Tiny Corp指责其售价3000美元的超算不如游戏电脑，强调FP4无法实际使用。尽管如此，英伟达仍计划进军消费级CPU市场。

英伟达迷你超算遭友商嘲讽：宣传FP4算力，实际“不如买个游戏电脑”

量子位 ·

Diffusion Transformers (DiTs) are improved by Hybrid Floating-point Quantization (HQ-DiT), a post-training quantization method utilizing 4-bit floating-point precision on both weights and...

高效的 FP4 混合量化扩散变换器（HQ-DiT）

BriefGPT - AI 论文速递 ·

最近的研究探讨了深度学习中的后训练量化，特别是FP8和FP4格式在大型语言模型中的应用。研究表明，FP8在自然语言处理和计算机视觉任务中优于INT8，且通过激活量化感知和序列长度感知校准等新技术，显著提高了模型的准确性和计算效率。这些进展为资源受限环境中的高效部署提供了可能。

从学生中学习：应用 t - 分布来探索 LLM 的准确和高效格式

BriefGPT - AI 论文速递 ·

研究发现，使用浮点量化可以在大型语言模型中获得出色的性能，尤其是使用FP8和FP4浮点数。对于权重量化，FP4与INT4相比表现出可比、甚至更好的性能。研究提出了两个权重量化的缩放约束条件，对性能的影响微乎其微，同时结合了低秩补偿策略来增强量化方法，特别适用于较小的模型。这些结果为在资源受限环境中高效部署大型语言模型铺平了道路。

了解后训练量化对大规模语言模型的影响

BriefGPT - AI 论文速递 ·