腾讯安全玄武实验室 ·

DeepSeek-671B纯CPU部署经验分享(一)

💡 原文中文，约28300字，阅读约需68分钟。

📝

内容提要

私有化部署大模型可有效保护数据隐私，本文探讨DeepSeek大模型的纯CPU部署，成本约3.8万元，使用llama.cpp框架，q8精度下实现7.17 tokens/s的输出速度。通过散热改进和系统优化，长文本生成速度提升约25%。文章包括装机选型、软硬件配置和性能测试三部分，提供详细配置建议和测试结果。

🎯

关键要点

私有化部署大模型可有效保护数据隐私，便于安全研究和知识蒸馏。
DeepSeek大模型的纯CPU部署成本约3.8万元，使用llama.cpp框架，q8精度下实现7.17 tokens/s的输出速度。
通过散热改进和系统优化，长文本生成速度提升约25%。
文章分为装机选型、软硬件配置和性能测试三部分，提供详细配置建议和测试结果。
DeepSeek R1模型采用高稀疏度的MoE结构，实际推理时仅激活部分专家，降低计算资源需求。
q8量化性能与原版fp8相近，优于q4，推荐使用q8精度以优化推理性能。
玄武装机方案成本显著低于纯GPU方案，适合单并发场景。
装机选型建议优先考虑内存带宽、CPU核心数和SSD读写速度。
散热优化对内存性能至关重要，避免内存过热导致降频。
性能测试显示q8和q4在生成速度和困惑度上存在差异，q8在某些场景下表现更优。
文章总结了对DeepSeek大模型的实践经验，并展望未来的性能优化方向。

❓

延伸问答

DeepSeek大模型的纯CPU部署有什么优势？

私有化部署大模型能够有效保护数据隐私，便于安全研究和知识蒸馏。

DeepSeek大模型的部署成本是多少？

DeepSeek大模型的纯CPU部署成本约为3.8万元。

使用q8精度的DeepSeek模型在性能上有什么表现？

在q8精度下，DeepSeek模型实现了7.17 tokens/s的输出速度。

如何优化DeepSeek模型的长文本生成速度？

通过散热改进和系统优化，长文本生成速度提升约25%。

DeepSeek模型的硬件选型有哪些建议？

建议优先考虑内存带宽、CPU核心数和SSD读写速度。

q8量化与q4量化在性能上有什么区别？

q8量化的性能与原版fp8相差无几，而在实际推理性能上q8优于q4。

🏷️

继续阅读

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust 原生数据表格组件 uiGrid 发布一个为 egui 开发的功能丰富的数据表格组件已在 GitHub 开源，采用 MIT 许可证。主要特性 ...
DeepSeek V4 发布没炸场，却靠降价掀起革命？
本文拆解DeepSeek V4连续降价如何改变AI模型使用成本，帮助开发者和低频用户判断是否还要购买Coding Plan或Token Plan。文章围绕...
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
· 三星 Q1 芯片利润暴涨 49 倍，单部门吃掉全集团 94% 营业利润 · 赛力斯一季度卖出 78500 辆新能源车，研发费用同比增长 70.7% ·...
OpenClaw四月更新连环翻车现场：每次升级都是新bug盲盒
本文回顾OpenClaw在2026年四月的一系列更新事故，从lossless-claw损坏到误删1617个文件，再到强行安装需要OpenAI密钥的技能，分...