量子位 ·

推理成本骤降75%！gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

OpenAI的gpt-oss模型采用MXFP4数据类型，推理成本降低75%，速度提升4倍。80GB显卡可运行1200亿参数模型，16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽，显著提升模型效率。

🎯

关键要点

OpenAI的gpt-oss模型采用MXFP4数据类型，推理成本降低75%。
MXFP4将内存占用降为同规模BF16模型的四分之一，生成token的速度提升4倍。
80GB显卡可运行1200亿参数模型，16GB显卡可运行200亿参数模型。
MXFP4通过压缩权重和提高内存带宽，显著提升模型效率。
MXFP4是微缩放4位浮点数，由Open Compute Project定义。
MXFP4通过公共缩放因子保持数值间的大小关系精度。
低精度数据类型通常被认为是对性价比的妥协，但在大语言模型中几乎没有质量损失。
英伟达推出了自己的微缩放数据类型NVFP4，以提高质量。
OpenAI在gpt-oss上只使用了MXFP4，表明其足够满足需求。

❓

延伸问答

MXFP4数据类型有什么优势？

MXFP4数据类型使推理成本降低75%，内存占用减少至同规模BF16模型的四分之一，同时生成token的速度提升4倍。

80GB显卡能运行多大的模型？

80GB显卡可以运行1200亿参数的大模型。

MXFP4是如何提高模型效率的？

MXFP4通过压缩权重和提高内存带宽，减少存储空间并加快数据读取速度，从而提高推理效率。

低精度数据类型对模型质量有影响吗？

虽然低精度数据类型通常被认为会影响质量，但在大语言模型中，降到8位或更低的精度几乎没有质量损失。

MXFP4与传统FP32数据类型相比有什么不同？

MXFP4每个权重仅占用半字节，而FP32每个权重占用4字节，MXFP4显著减少了存储需求。

英伟达的NVFP4与MXFP4有什么区别？

NVFP4通过更细粒度的缩放块和FP8缩放因子来提高质量，相比之下，MXFP4的缩放块大小为32，可能导致质量下降。

🏷️

继续阅读

一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
人工智能成本危机终于有了监管机构——只是并不是那些造成危机的公司
Linux基金会宣布成立Tokenomics基金会，旨在为AI代币消费建立开放标准和最佳实践。该基金会将于6月在FinOps X正式启动，获得谷歌、微软等...
驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...
为GPT-Rosalind引入新功能
GPT-Rosalind系列模型更新，专为生命科学研究设计，提升了药物发现智能和工具使用能力。该模型在生物学、药物化学和基因组学等领域表现出显著提升，通过...
群联展示新款PCIe 6.0 16通道X3控制器速度可达28,000MB/秒最高可做到单盘2PB
群联推出新款PCIe 6.0 16通道X3控制器，顺序读写速度可达28,000MB/s，随机读写IOPS达680万，支持最高2PB存储容量，主要面向数据中...
Ubuntu 计划为所有文本字段添加 AI 语音输入功能
Ubuntu 26.10 将推出语音输入功能，用户可以通过说话代替打字。该功能由 AI 语言解析模型支持，旨在提升可访问性和便利性。此外，Canonica...