大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
微软推出FP4训练框架,能在相同超参数下实现与BF16相当的训练效果,降低存储和计算资源需求。该框架支持最大130亿参数的模型,采用FP8模拟FP4,提升训练效率,并在反向传播中引入可微分梯度估计方法,确保训练稳定性。
🎯
关键要点
- 微软推出FP4训练框架,训练效果与BF16相当,降低存储和计算资源需求。
- 该框架支持最大130亿参数的模型,采用FP8模拟FP4以提升训练效率。
- 研究团队采用定制化的FP4矩阵乘法CUDA内核,实现FP4精度训练。
- 框架采用E2M1的FP4格式,契合主流ML加速芯片的量化计算单元设计。
- 对权重矩阵和激活矩阵采取不同粒度的量化策略,以最大化FP4在矩阵乘法上的加速效果。
- 提出可微分梯度估计方法,解决量化后梯度几乎为0的问题。
- 针对隐层激活分布的长尾特征,提出“离群点削峰和补偿”的策略。
- 采用混合精度设计,降低计算和存储开销,同时保证训练数值稳定性。
- 该框架由微软亚洲研究院和SIGMA团队打造,参与者均为华人研究人员。
➡️