小红花·文摘

摩尔线程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0适配DeepSeek-V4

实时互动网 ·

本文探讨了量化在大模型推理中的重要性，强调通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。量化提高了推理效率，降低了成本，使得在有限硬件上运行大型模型成为可能。文章介绍了不同数据类型的特点、量化算法及其应用，强调了量化在长上下文和大批量推理中的优势。

【大模型基础设施工程】14：量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ

土法炼钢兴趣小组的博客 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化爬取流程。

DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜

机器之心 ·

DeepSeek-V3.1采用UE8MO FP8精度，显著提升AI模型训练效率，优化动态范围，降低显存和功耗，适应国产芯片需求，推动国产AI芯片技术进步。

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

dotNET跨平台 ·

DeepSeek-V3.1采用UE8MO FP8参数精度，显著提升AI模型训练效率，降低显存占用，支持国产芯片发展，助力应对技术封锁。

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块 - 张善友

张善友 ·

Deepseek V3.1 引爆A股！神秘代码 UE8M0 揭秘，华为升腾背后的“国运”豪赌

硕鼠的博客站 ·

DeepSeek V3.1发布后，UE8M0 FP8概念推动国产芯片股价大涨，标志着国产AI向软硬协同发展。UE8M0 FP8通过优化数据处理提升芯片性能，减少对外部算力依赖，增强国产芯片竞争力。

DeepSeek一句话让国产芯片集体暴涨！背后的UE8M0 FP8到底是个啥

量子位 ·

DeepSeek是一个国产大模型，采用FP8混合精度训练和MoE架构，显著降低了算力需求，但在医疗影像等任务中存在精度问题。其半开放式开源策略吸引了开发者，但对英伟达架构的依赖可能导致技术脆弱。整体而言，DeepSeek体现了中国AI的创新与挑战。

解剖DeepSeek四把刀，一场深到源码，大到行业，细到人心的手术盛宴

京东科技开发者 ·

本研究解决了深度搜索模型量化后的性能问题，评估了多位宽量化的效果。结果显示，4位量化与FP8相比性能下降极小，并提出了DQ3_K_M动态3位量化方法，优于传统方法。

Quantitative Analysis of Performance Degradation in Deep Search Model Quantization

BriefGPT - AI 论文速递 ·

DeepSeek发布了开源矩阵乘法库DeepGEMM，专为英伟达Hopper GPU设计，支持FP8格式，提升AI训练效率。核心代码仅300行，简单易用，适用于多种AI架构，性能优于专家优化库。开发者可在GitHub获取代码。

DeepSeek AI开源周3/5：开源DeepGEMM通用矩阵乘法库提高效率

蓝点网 ·

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

机器之心 ·

FP8训练新范式：减少40%显存占用，训练速度提高1.4倍

机器之心 ·

关于DeepSeek我是怎么研究的(4)

Shadow Walker 松烟阁 ·

DeepSeek开源通用矩阵乘法库，300行代码加速V3、R1，R2被曝五月前问世

机器之心 ·

一文看懂 DeepSeek 开源项目第三弹，300 行代码揭示 V3/R1 推理效率背后的关键

爱范儿 ·

DeepSeek开源了DeepGEMM库，专注于高效FP8矩阵乘法，核心代码仅300行。在Hopper架构GPU上可达1350+TFLOPS性能，支持即时编译，简化使用，适用于深度学习的大规模模型训练，受到广泛关注。

DeepSeek开源第三弹：V3/R1训练推理关键秘籍，核心代码仅300行

量子位 ·

DeepSeek是一个国产大模型，采用FP8混合精度训练和MoE架构，显著降低算力需求，但在医疗影像等任务中存在精度问题。尽管吸引开发者，仍深度依赖英伟达架构，面临技术风险。这反映了中国AI发展的复杂性。

解剖DeepSeek四把刀，一场深到源码，大到行业，细到人心的手术盛宴

京东科技开发者 ·

DeepSeek V3将于2024年12月发布，凭借1/14的算力超越Llama 3.1 405B，采用多头潜在注意力和负载平衡策略，训练成本仅为558万美元，展现了国内AI领域的创新能力。

一文通透让Meta恐慌的DeepSeek-V3：在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

结构之法算法之道 ·

使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

刘悦 ·

本研究解决了现有 FP8 训练框架在内存使用优化方面的不足。通过动态范围扩展和混合粒度激活量化的创新方法，COAT 显著降低了大模型训练的内存占用，并在多项任务中实现了几乎无损的性能，提供了在较少 GPU 上高效训练大模型的解决方案。

COAT：优化器状态和激活的压缩以实现内存高效的 FP8 训练

BriefGPT - AI 论文速递 ·