OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%,速度提升4倍。80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。
本文针对FP4精度训练过程中显著的准确性下降问题,提出了一种新颖的TetraJet训练方法。通过评估训练中涉及的量化器,本研究识别出权重振荡是造成MXFP4训练性能降级的主要原因,并引入了EMA量化器和自适应坡度优化器来解决这一问题。实验结果表明,TetraJet在视觉变换器任务中优于现有的4位训练方法,准确性降低幅度减少超过50%。
完成下面两步后,将自动完成登录并继续当前操作。