小红花·文摘

OpenAI的gpt-oss模型采用MXFP4数据类型，推理成本降低75%，速度提升4倍。80GB显卡可运行1200亿参数模型，16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽，显著提升模型效率。

推理成本骤降75%！gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

量子位 ·

本文针对FP4精度训练过程中显著的准确性下降问题，提出了一种新颖的TetraJet训练方法。通过评估训练中涉及的量化器，本研究识别出权重振荡是造成MXFP4训练性能降级的主要原因，并引入了EMA量化器和自适应坡度优化器来解决这一问题。实验结果表明，TetraJet在视觉变换器任务中优于现有的4位训练方法，准确性降低幅度减少超过50%。

减少振荡的MXFP4训练方法用于视觉变换器

BriefGPT - AI 论文速递 ·