大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

微软推出FP4训练框架,能在相同超参数下实现与BF16相当的训练效果,降低存储和计算资源需求。该框架支持最大130亿参数的模型,采用FP8模拟FP4,提升训练效率,并在反向传播中引入可微分梯度估计方法,确保训练稳定性。

🎯

关键要点

  • 微软推出FP4训练框架,训练效果与BF16相当,降低存储和计算资源需求。
  • 该框架支持最大130亿参数的模型,采用FP8模拟FP4以提升训练效率。
  • 研究团队采用定制化的FP4矩阵乘法CUDA内核,实现FP4精度训练。
  • 框架采用E2M1的FP4格式,契合主流ML加速芯片的量化计算单元设计。
  • 对权重矩阵和激活矩阵采取不同粒度的量化策略,以最大化FP4在矩阵乘法上的加速效果。
  • 提出可微分梯度估计方法,解决量化后梯度几乎为0的问题。
  • 针对隐层激活分布的长尾特征,提出“离群点削峰和补偿”的策略。
  • 采用混合精度设计,降低计算和存储开销,同时保证训练数值稳定性。
  • 该框架由微软亚洲研究院和SIGMA团队打造,参与者均为华人研究人员。
➡️

继续阅读