小红花·文摘 - 小红花技术领袖俱乐部

Vulkan 1.4.311 发布，包含针对 BFloat16 的新扩展

Vulkan 1.4.311 发布，包含针对 BFloat16 的新扩展

实时互动网 ·

微软推出FP4训练框架，能在相同超参数下实现与BF16相当的训练效果，降低存储和计算资源需求。该框架支持最大130亿参数的模型，采用FP8模拟FP4，提升训练效率，并在反向传播中引入可微分梯度估计方法，确保训练稳定性。

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

量子位 ·

本研究探讨了大型语言模型量化的准确性与性能权衡，提出了FP8、INT8和INT4等量化格式的改进，其中INT8量化仅导致1-3%的准确性下降，为实际部署提供了指导。

“给我 BF16 否则让我去死”？大型语言模型量化中的准确性与性能权衡

BriefGPT - AI 论文速递 ·

Colossal-AI升级了混合精度训练，支持BF16和FP8方案，实现平均30%加速，降低成本并保证收敛性。FP8通过实时缩放提高效率，适合大模型硬件需求，多卡并行训练效果显著。支持多种并行方式，使用简单，无需额外编译。

一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

量子位 ·