机器之心 ·

老显卡福音！美团技术团队开源首发INT8无损满血版DeepSeek R1

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

美团团队对DeepSeek R1模型进行了INT8量化，解决了GPU兼容性问题，支持A100等旧型号GPU的部署。量化后模型精度几乎无损，推理吞吐量提升50%。相关代码已开源，方便用户使用。

🎯

关键要点

美团团队对DeepSeek R1模型进行了INT8量化，解决了GPU兼容性问题。
量化后模型精度几乎无损，推理吞吐量提升50%。
原生版本的模型权重为FP8数据格式，仅支持新型GPU。
INT8量化解锁了芯片限制，支持A100等旧型号GPU的部署。
量化代码已开源，方便用户使用。
分块量化和通道量化是降低量化损失的关键技术。
INT8精度被广泛硬件原生支持，拓展了模型的硬件部署范围。
在GSM8K和MMLU数据集上评估，INT8量化模型精度基本无损。
在A100 GPU上，INT8量化模型的推理吞吐量显著高于BF16模型。
希望开源的代码和权重能让更多用户受益，欢迎交流技术。

❓

延伸问答

DeepSeek R1模型的INT8量化有什么优势？

INT8量化后模型精度几乎无损，推理吞吐量提升50%，并且支持旧型号GPU的部署。

如何在A100 GPU上部署DeepSeek R1模型？

开发者需要在双节点各8张A100 GPU上安装最新版本的SGLang，并执行相应的命令进行部署。

DeepSeek R1模型的原生版本有什么限制？

原生版本的模型权重为FP8数据格式，仅支持新型GPU，无法直接在旧型号GPU上部署。

美团团队在量化技术上采用了哪些关键方法？

美团团队采用了分块量化和通道量化技术，以降低量化损失并提高推理性能。

INT8量化模型在GSM8K和MMLU数据集上的表现如何？

在这两个数据集上评估，INT8量化模型的精度基本无损，表现良好。

开源的DeepSeek R1模型代码在哪里可以找到？

相关的量化代码已开源到Hugging Face社区，用户可以方便地获取。

🏷️

继续阅读

在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测
SenseNova U1 是商汤发布的开源多模态模型，具备连续图文生成能力，能够同时生成文字和图片。该模型在信息图生成方面表现出色，采用 NEO-unif...
钉钉“听劝”推出充电宝版录音卡，可连续录音180小时
钉钉推出DingTalk A1 Pro，售价1299元，专为商务人士设计。该设备配备2980mAh电池，支持180小时录音和反向充电，搭载专业麦克风，能在...
GhostTrack免费开源情报工具教程：IP手机号用户名追踪指南
GhostTrack是一个免费开源的情报工具，能够通过输入IP、手机号或用户名自动收集公开数据。它支持Linux和安卓，安装简单，能查找IP位置、手机号归...
驱动Wise的技术架构
Wise的技术架构通过标准化和自动化提升服务的可靠性与效率。微服务框架确保一致性，Kubernetes和CRP优化基础设施，Spinnaker改进部署流程...
SmartPerfetto 开源：面向 Android Trace 分析的 Perfetto AI Assistant
SmartPerfetto 已完整开源，提供性能分析工具，简化 trace 分析过程。该项目结合 AI 助手，允许用户通过自然语言提问，自动查询和分析数据...