量子位 ·

老显卡福音！美团开源首发INT8无损满血版DeepSeek R1

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

美团开源了INT8无损量化的DeepSeek R1模型，提升了在A100等老显卡上的部署能力。通过分块和通道量化技术，模型在精度上几乎无损，推理吞吐量提高了50%。该模型已在Hugging Face发布，方便用户使用。

🎯

关键要点

美团开源了INT8无损量化的DeepSeek R1模型，提升了在A100等老显卡上的部署能力。
通过分块和通道量化技术，模型在精度上几乎无损，推理吞吐量提高了50%。
DeepSeek R1原生版本的模型权重为FP8数据格式，仅能被新型GPU支持。
量化代码已合入开源LLM推理框架SGLang，并发布到Hugging Face社区。
INT8精度被广泛硬件原生支持，拓展了DeepSeek模型的硬件部署范围。
分块量化技术通过细粒度切分权重矩阵，降低量化损失。
通道量化技术在执行完INT8矩阵乘法后，计算开销更低。
两种INT8量化模型在GSM8K和MMLU数据集上精度基本无损。
在A100 GPU上，INT8量化模型推理吞吐量相比BF16模型提升33%至50%。
开发者可通过SGLang框架在双节点A100 GPU上部署INT8量化模型。
研究团队希望开源代码和权重能让更多用户受益，并欢迎技术交流。

❓

延伸问答

DeepSeek R1模型的INT8量化有什么优势？

INT8量化几乎无损精度，并且推理吞吐量提高了50%，适用于老显卡如A100。

如何在A100 GPU上部署DeepSeek R1模型？

开发者需在双节点A100 GPU上安装SGLang框架，并执行相应的命令进行部署。

DeepSeek R1模型的量化技术有哪些？

主要有分块量化和通道量化，前者通过细粒度切分权重矩阵降低量化损失，后者则减少计算开销。

INT8量化模型在推理性能上与BF16模型相比如何？

INT8量化模型在A100 GPU上的推理吞吐量相比BF16模型提升了33%至50%。

DeepSeek R1模型的开源情况如何？

DeepSeek R1的INT8量化模型已开源到Hugging Face，方便用户使用。

美团开源DeepSeek R1模型的目的是什么？

希望通过开源代码和权重让更多用户受益，并欢迎技术交流。

🏷️

继续阅读

机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
JetBrains开源Mellum2，以超越Claude Code的局限
JetBrains发布了Mellum2，这是一个开源的12B参数编码模型，专注于AI系统的基础设施层。Mellum2支持更广泛的任务，如模型协调和子代理工...
百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA
百度发布的PaddleOCR-VL-1.6在OmniDocBench v1.6评测中准确率超过96.3%，综合性能全球第一，支持100多种语言，适应复杂文...
Hermes Desktop – 从安装到使用，完整的 Hermes-Agent 桌面客户端
Hermes Desktop 是一款支持 Windows、macOS 和 Linux 的开源 AI 客户端，能够管理聊天、会话和配置文件。它简化了 Her...
孟买大盛会 – KubeCon + CloudNativeCon 印度版
孟买将于2026年6月18日至19日举办KubeCon + CloudNativeCon，地点为Jio World Convention Centre。会...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...