美团技术团队 ·

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

DeepSeek R1模型利用INT8量化技术克服了GPU部署的限制，显著提升了推理吞吐量并降低了成本，量化后模型精度几乎无损，已在Hugging Face开源，欢迎交流与学习。

🎯

关键要点

DeepSeek R1模型采用INT8量化技术，克服GPU部署限制，提升推理吞吐量，降低成本。
原生FP8模型权重对GPU有严格限制，INT8量化后可在A100等多种GPU上部署。
INT8量化过程包括计算缩放因子和量化、反量化操作，确保模型效果一致。
DeepSeek R1采用混合精度训练，使用INT8精度替代FP8精度，降低计算开销。
量化方法包括分块量化和通道量化，前者控制量化损失，后者计算开销更低。
量化模型在GSM8K和MMLU数据集上评估，精度基本无损。
INT8量化模型在推理吞吐上相比BF16模型提升33%至50%。
量化模型已开源到Hugging Face，方便用户使用。
开发者可通过SGLang框架进行INT8量化模型的部署。
团队欢迎与社区交流，共同推动开源技术的发展。

❓

延伸问答

DeepSeek R1模型的INT8量化技术有什么优势？

INT8量化技术显著提升了推理吞吐量，降低了成本，并且模型精度几乎无损，能够在多种GPU上部署。

如何在A100等GPU上部署DeepSeek R1模型？

通过INT8量化后，DeepSeek R1模型可以在A100等多种GPU上部署，用户可以使用开源的量化代码进行部署。

DeepSeek R1的量化过程包括哪些步骤？

量化过程包括计算缩放因子、量化和反量化操作，以确保模型效果一致。

INT8量化模型在推理吞吐上相比BF16模型提升了多少？

INT8量化模型在推理吞吐上相比BF16模型提升了33%至50%。

DeepSeek R1模型的量化方法有哪些？

DeepSeek R1模型采用了分块量化和通道量化两种方法，以控制量化损失和降低计算开销。

DeepSeek R1模型的量化模型在哪里可以找到？

量化模型已开源到Hugging Face，用户可以方便地使用。

🏷️

继续阅读

【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust开发者推出了功能丰富的uiGrid数据表格组件，支持分组、过滤、排序等操作，具备树形视图和单元格编辑功能。该项目已开源，采用MIT许可证，支持自定...
69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案
2026年4月，推荐了69个开源AI工具，包括Ollama、vLLM、LM Studio等，适用于本地运行大模型和推理引擎，帮助用户每年节省高达5万美元的...
开源Sandcastle项目实战：AI独自写889次代码更新全流程揭秘
Sandcastle项目展示了AI独立完成889次代码更新的能力，采用严格的流程设计，包括AI编写、检查和审核代码，人类仅负责最终确认。项目通过明确的任务...
DeepSeek V4 发布没炸场，却靠降价掀起革命？
DeepSeek V4 发布后，通过降价策略打破了高 Token 价格和订阅套餐的束缚，用户可按需付费，吸引了更多低频用户，改变了市场格局。
开源社区“内战”爆发：Bun 创始人预言“未来将禁止人类贡献”，硅谷大佬纷纷站队！
开源社区因Bun创始人Jarred Sumner的言论而分裂，预言未来将禁止人类贡献代码。Zig社区坚守传统开源精神，反对AI生成的“垃圾代码”。硅谷大佬...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...