小红花·文摘

本文探讨了FP4低精度训练中E2M1格式的局限性，提出E1M2格式可能是更优选择。研究发现E2M1存在收缩偏差，影响训练收敛速度。通过引入随机Hadamard变换（RHT），在E1M2格式下可提高量化质量，推动FP4训练向“局部分辨率主导”转变，建议未来硬件重新评估格式选择。

Re0: 当表达细节成为 FP4 新瓶颈时，我们是否仍要坚守 E2M1？

千千 ·

Ling 2.0 采用 FP8 混合精度训练，显著提升了训练效率和显存利用率。细粒度量化减少了量化误差，确保模型效果接近 BF16。与 LLaMA 3.1 和 Qwen3 比较，Ling-mini-2.0 在多 GPU 环境下吞吐量提升达 30-120%。该方案为低精度训练提供了有效路径，解决了计算资源和能耗挑战。

聊一聊我们最近开源的 Ling 2.0 原生 FP8 混合精度训练

千千 ·

大模型量化训练极限在哪？腾讯混元提出低比特浮点数训练Scaling Laws

机器之心 ·

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

机器之心 ·

本研究探讨低精度训练和推理对语言模型质量及成本的影响，提出“精准度感知”规模规律，发现低精度训练减少有效参数数量，且后训练量化降级随训练数据增加而加剧，为模型训练优化提供新思路。

精准度的规模规律

BriefGPT - AI 论文速递 ·

本文探讨了基于梯度和重要性采样的深度学习优化方法，提出了一种高效的采样框架，显著提升了模型性能和训练效率。研究表明，低精度训练和梯度采样技术在资源受限环境中仍能保持高准确性，适用于多种数据集和神经网络结构。

深度学习模型训练中的能量成本最小化：高斯采样方法

BriefGPT - AI 论文速递 ·

本文介绍了使用低精度（如8位浮点数）训练深度神经网络的方法，旨在降低计算需求并提升模型性能。研究表明，这些技术在多个数据集上有效减少内存消耗，同时保持高准确性，甚至在某些情况下提升性能。这些新方法为未来硬件平台的训练奠定了基础，具有显著的效率提升潜力。

轻量级低精度策略用于 LLM 训练

BriefGPT - AI 论文速递 ·

TensorFlow Quantum 是一个开源库，支持混合量子-经典模型的设计与训练，推动量子计算与机器学习的发展。该库提供超导量子分类和噪声模拟等功能，帮助发现潜在的量子算法。其他工具如 NetKet 3 和 TorchMD-Net 也在量子态机器学习和计算效率方面有所贡献。QPyTorch 框架简化了低精度训练的研究，提升了模型效率。

Qiskit-Torch-Module：快速原型制作量子神经网络

BriefGPT - AI 论文速递 ·