机器之心 ·

FP8训练新范式：减少40%显存占用，训练速度提高1.4倍

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

DeepSeek V3 通过 FP8 精度显著降低 GPU 内存和计算开销，提出 COAT 方法，优化内存利用率和训练速度，实现内存减少 1.54 倍，速度提升 1.43 倍，同时保持模型精度，支持大规模模型训练。

🎯

关键要点

DeepSeek V3 通过 FP8 精度显著降低 GPU 内存和计算开销。
COAT 方法优化内存利用率和训练速度，实现内存减少 1.54 倍，速度提升 1.43 倍。
COAT 支持大规模模型训练，能够加倍训练批次大小，更好地利用 GPU 资源。
论文第一作者席浩诚在伯克利攻读博士学位，论文共同通讯作者为 MIT 和清华大学的副教授。
FP8 量化优化器状态的难点在于当前方法无法充分利用 FP8 的表示范围。
动态范围扩展方法通过引入扩展函数，减少量化误差并充分利用 E4M3 的动态范围。
FP8 精度流通过直接以 FP8 格式保存输入张量，减少激活内存占用。
COAT 在多个任务中展示了内存占用和训练速度的优势，同时保持模型性能。
在使用 4 张 H100 训练 Llama-2-13B 模型时，COAT 实现了 1.54 倍的内存缩减和 1.43 倍的训练加速。
COAT 在各种应用场景下展现出色的精度，完全不会导致模型性能下降。
COAT 的核心价值在于显存优化，适用于单机和分布式训练，降低大模型训练的门槛。

❓

延伸问答

COAT 方法如何提高训练速度和内存利用率？

COAT 方法通过 FP8 量化压缩优化器状态和激活值，实现内存减少 1.54 倍和速度提升 1.43 倍，同时保持模型精度。

FP8 精度在大模型训练中有什么优势？

FP8 精度显著降低 GPU 内存和计算开销，使得高效全参数训练在更少的 GPU 上成为可能。

COAT 方法在训练 Llama-2-13B 模型时的具体表现如何？

在使用 4 张 H100 训练 Llama-2-13B 模型时，COAT 实现了 1.54 倍的内存缩减和 1.43 倍的训练加速。

动态范围扩展方法是如何减少量化误差的？

动态范围扩展方法通过引入扩展函数，扩大量化组的动态范围，使其与 FP8 的 E4M3 格式对齐，从而减少量化误差。

COAT 方法是否会影响模型性能？

COAT 方法在各种应用场景下展现出色的精度，完全不会导致模型性能下降。

COAT 方法的开源代码在哪里可以找到？

COAT 方法的开源代码可以在 GitHub 上找到，链接是 https://github.com/NVlabs/COAT。

🏷️

继续阅读

全球首个机器人训练楼盘开盘：30万套中国住宅，机器人拎包入住
大晓机器人与港中文MMLab推出Kairos-Homeworld，这是首个全屋三维生成与物体级交互框架，利用30万套中国住宅户型数据为机器人提供训练环境。...
阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
搜索速度提升3倍：使用Instructed-Retriever-1的并行测试时间扩展
Databricks发布了Agent Bricks知识助手的重大更新，显著提升了回答生成速度和搜索效率，搜索时间减少超过3倍，回答生成时间减少2倍。新模型...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
AI Agent 从实验走向生产，企业需要让不同团队各跑独立实例且互不可见。本文介绍基于 Amazon ECS Fargate + Graviton 的轻...