大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

微软推出FP4训练框架,能在相同超参数下实现与BF16相当的训练效果,降低存储和计算资源需求。该框架支持最大130亿参数的模型,采用FP8模拟FP4,提升训练效率,并在反向传播中引入可微分梯度估计方法,确保训练稳定性。

🎯

关键要点

  • 微软推出FP4训练框架,训练效果与BF16相当,降低存储和计算资源需求。
  • 该框架支持最大130亿参数的模型,采用FP8模拟FP4以提升训练效率。
  • 研究团队采用定制化的FP4矩阵乘法CUDA内核,实现FP4精度训练。
  • 框架采用E2M1的FP4格式,契合主流ML加速芯片的量化计算单元设计。
  • 对权重矩阵和激活矩阵采取不同粒度的量化策略,以最大化FP4在矩阵乘法上的加速效果。
  • 提出可微分梯度估计方法,解决量化后梯度几乎为0的问题。
  • 针对隐层激活分布的长尾特征,提出“离群点削峰和补偿”的策略。
  • 采用混合精度设计,降低计算和存储开销,同时保证训练数值稳定性。
  • 该框架由微软亚洲研究院和SIGMA团队打造,参与者均为华人研究人员。

延伸问答

FP4训练框架的主要优势是什么?

FP4训练框架在相同超参数下能实现与BF16相当的训练效果,同时降低存储和计算资源需求。

FP4训练框架支持多大的模型?

该框架支持最大130亿参数的模型。

FP4训练框架是如何提升训练效率的?

框架采用FP8模拟FP4,并引入可微分梯度估计方法,确保训练稳定性。

FP4训练框架采用了什么样的量化策略?

框架对权重矩阵和激活矩阵采取不同粒度的量化策略,分别为列方向和行方向的量化。

FP4训练框架的反向传播中遇到什么问题?

在反向传播过程中,量化后的矩阵求导时权重矩阵的梯度几乎为0,无法进行参数更新。

FP4训练框架的开发团队有哪些成员?

该框架由微软亚洲研究院和SIGMA团队打造,参与者均为华人研究人员,包括中科大博士生和多位研究经理。

➡️

继续阅读