量子位 ·

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

微软推出FP4训练框架，能在相同超参数下实现与BF16相当的训练效果，降低存储和计算资源需求。该框架支持最大130亿参数的模型，采用FP8模拟FP4，提升训练效率，并在反向传播中引入可微分梯度估计方法，确保训练稳定性。

🎯

关键要点

微软推出FP4训练框架，训练效果与BF16相当，降低存储和计算资源需求。
该框架支持最大130亿参数的模型，采用FP8模拟FP4以提升训练效率。
研究团队采用定制化的FP4矩阵乘法CUDA内核，实现FP4精度训练。
框架采用E2M1的FP4格式，契合主流ML加速芯片的量化计算单元设计。
对权重矩阵和激活矩阵采取不同粒度的量化策略，以最大化FP4在矩阵乘法上的加速效果。
提出可微分梯度估计方法，解决量化后梯度几乎为0的问题。
针对隐层激活分布的长尾特征，提出“离群点削峰和补偿”的策略。
采用混合精度设计，降低计算和存储开销，同时保证训练数值稳定性。
该框架由微软亚洲研究院和SIGMA团队打造，参与者均为华人研究人员。

❓

延伸问答

FP4训练框架的主要优势是什么？

FP4训练框架在相同超参数下能实现与BF16相当的训练效果，同时降低存储和计算资源需求。

FP4训练框架支持多大的模型？

该框架支持最大130亿参数的模型。

FP4训练框架是如何提升训练效率的？

框架采用FP8模拟FP4，并引入可微分梯度估计方法，确保训练稳定性。

FP4训练框架采用了什么样的量化策略？

框架对权重矩阵和激活矩阵采取不同粒度的量化策略，分别为列方向和行方向的量化。

FP4训练框架的反向传播中遇到什么问题？

在反向传播过程中，量化后的矩阵求导时权重矩阵的梯度几乎为0，无法进行参数更新。

FP4训练框架的开发团队有哪些成员？

该框架由微软亚洲研究院和SIGMA团队打造，参与者均为华人研究人员，包括中科大博士生和多位研究经理。

🏷️

继续阅读

通过玩“战舰”教人工智能代理提出更好的问题
麻省理工学院的研究显示，小型人工智能模型在经典游戏“战舰”中表现优于大型模型，成本仅为其1%。研究指出，通过改进模型的提问能力和使用蒙特卡罗推理策略，可以...
教你薅token：构建agent无关的AI工作流
目前使用AI的主要痛点是高昂的账单。用户可以通过维护良好的文档来优化使用流程，减少对高价Agent的依赖。合理利用免费资源可以节省开支，维护好文档有助于降...
抵制基于网络的垃圾应用！微软鼓励开发者基于WinUI为Windows 11开发原生应用
微软将 WinUI 3 框架重命名为 WinUI，鼓励开发者为 Windows 11 开发原生应用，放弃基于 Web 技术的应用。微软承诺不再推出新 UI...
微软将改进Windows 11右键菜单有可能会让用户自定义并隐藏不常用选项
微软将改进Windows 11的右键菜单，默认提供简化版，减少不常用选项。用户可以自定义菜单，以提升操作效率。
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
mingling - 基于过程宏的命令行框架
我开发了一个命令行框架mingling，利用过程宏减少样板代码，提高命令行开发效率。该框架已在crates.io发布，版本为0.1.9，欢迎大家讨论和使用。