小红花·文摘

Ling 2.0 采用 FP8 混合精度训练，显著提升了训练效率和显存利用率。细粒度量化减少了量化误差，确保模型效果接近 BF16。与 LLaMA 3.1 和 Qwen3 比较，Ling-mini-2.0 在多 GPU 环境下吞吐量提升达 30-120%。该方案为低精度训练提供了有效路径，解决了计算资源和能耗挑战。

聊一聊我们最近开源的 Ling 2.0 原生 FP8 混合精度训练

千千 ·

本研究提出了一种细粒度量化技术，有效解决了大语言模型在多硬件加速器推理中的通信延迟问题，实现了3.5到4.5倍的压缩率，首次令牌响应时间缩短最多2倍，且对模型性能影响微小。

Communication Compression for Tensor Parallel Inference of Large Language Models

BriefGPT - AI 论文速递 ·