推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%,速度提升4倍。80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。
🎯
关键要点
- OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%。
- MXFP4将内存占用降为同规模BF16模型的四分之一,生成token的速度提升4倍。
- 80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数模型。
- MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。
- MXFP4是微缩放4位浮点数,由Open Compute Project定义。
- MXFP4通过公共缩放因子保持数值间的大小关系精度。
- 低精度数据类型通常被认为是对性价比的妥协,但在大语言模型中几乎没有质量损失。
- 英伟达推出了自己的微缩放数据类型NVFP4,以提高质量。
- OpenAI在gpt-oss上只使用了MXFP4,表明其足够满足需求。
❓
延伸问答
MXFP4数据类型有什么优势?
MXFP4数据类型使推理成本降低75%,内存占用减少至同规模BF16模型的四分之一,同时生成token的速度提升4倍。
80GB显卡能运行多大的模型?
80GB显卡可以运行1200亿参数的大模型。
MXFP4是如何提高模型效率的?
MXFP4通过压缩权重和提高内存带宽,减少存储空间并加快数据读取速度,从而提高推理效率。
低精度数据类型对模型质量有影响吗?
虽然低精度数据类型通常被认为会影响质量,但在大语言模型中,降到8位或更低的精度几乎没有质量损失。
MXFP4与传统FP32数据类型相比有什么不同?
MXFP4每个权重仅占用半字节,而FP32每个权重占用4字节,MXFP4显著减少了存储需求。
英伟达的NVFP4与MXFP4有什么区别?
NVFP4通过更细粒度的缩放块和FP8缩放因子来提高质量,相比之下,MXFP4的缩放块大小为32,可能导致质量下降。
➡️