推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%,速度提升4倍。80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。

🎯

关键要点

  • OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%。
  • MXFP4将内存占用降为同规模BF16模型的四分之一,生成token的速度提升4倍。
  • 80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数模型。
  • MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。
  • MXFP4是微缩放4位浮点数,由Open Compute Project定义。
  • MXFP4通过公共缩放因子保持数值间的大小关系精度。
  • 低精度数据类型通常被认为是对性价比的妥协,但在大语言模型中几乎没有质量损失。
  • 英伟达推出了自己的微缩放数据类型NVFP4,以提高质量。
  • OpenAI在gpt-oss上只使用了MXFP4,表明其足够满足需求。

延伸问答

MXFP4数据类型有什么优势?

MXFP4数据类型使推理成本降低75%,内存占用减少至同规模BF16模型的四分之一,同时生成token的速度提升4倍。

80GB显卡能运行多大的模型?

80GB显卡可以运行1200亿参数的大模型。

MXFP4是如何提高模型效率的?

MXFP4通过压缩权重和提高内存带宽,减少存储空间并加快数据读取速度,从而提高推理效率。

低精度数据类型对模型质量有影响吗?

虽然低精度数据类型通常被认为会影响质量,但在大语言模型中,降到8位或更低的精度几乎没有质量损失。

MXFP4与传统FP32数据类型相比有什么不同?

MXFP4每个权重仅占用半字节,而FP32每个权重占用4字节,MXFP4显著减少了存储需求。

英伟达的NVFP4与MXFP4有什么区别?

NVFP4通过更细粒度的缩放块和FP8缩放因子来提高质量,相比之下,MXFP4的缩放块大小为32,可能导致质量下降。

➡️

继续阅读