量子位 ·

配这种CPU，GPU单卡就能跑满血DeepSeek-R1，至强+AMX让预填充速度起飞

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

清华大学KVCache.AI团队与趋境科技推出KTransformers项目，支持在24G显存下运行DeepSeek-R1，显著提升推理速度。该项目通过异构计算和CPU的AMX指令集加速，预填充速度达到286 tokens/s，生成速度为14 tokens/s，降低了大模型的运行门槛，推动了本地部署的可能性。

🎯

关键要点

清华大学KVCache.AI团队与趋境科技推出KTransformers项目，支持在24G显存下运行DeepSeek-R1。
KTransformers项目通过异构计算和CPU的AMX指令集加速，预填充速度达到286 tokens/s，生成速度为14 tokens/s。
该项目降低了大模型的运行门槛，推动了本地部署的可能性。
DeepSeek-R1的推理服务器频繁宕机，导致中小团队难以承受高昂的成本。
KTransformers项目允许在仅有24GB显存的消费级显卡上流畅运行236B的大模型。
KTransformers团队采用了基于计算强度的offload策略和高性能的CPU/GPU算子来加速推理速度。
DeepSeek-R1/V3采用MoE架构，模型参数稀疏性强，减少了计算资源需求。
KTransformers兼容Huggingface Transformers的API与ChatGPT式Web界面，降低了上手难度。
项目支持Windows和Linux平台，方便用户运行。
未来计划升级到至强6处理器，寻求进一步的性能提升。

❓

延伸问答

KTransformers项目的主要功能是什么？

KTransformers项目支持在24G显存下运行DeepSeek-R1，显著提升推理速度，降低了大模型的运行门槛。

KTransformers如何提升推理速度？

KTransformers通过异构计算和CPU的AMX指令集加速，预填充速度达到286 tokens/s，生成速度为14 tokens/s。

KTransformers项目对中小团队有什么帮助？

该项目降低了大模型的运行门槛，使中小团队能够在仅有24GB显存的消费级显卡上流畅运行236B的大模型，减少了高昂的成本。

DeepSeek-R1的MoE架构有什么特点？

DeepSeek-R1采用MoE架构，具有强稀疏性，执行推理时只激活部分模型参数，减少了计算资源需求。

KTransformers支持哪些平台？

KTransformers支持Windows和Linux平台，方便用户运行。

未来KTransformers有什么升级计划？

未来计划升级到至强6处理器，寻求进一步的性能提升，特别是AMX指令集的增强。

🏷️

继续阅读

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B
DigitalOcean推出DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B，优化了硬件和软件，提升了推理速度和效率，满足...
Christophe Pettus: Parallel Autovacuum: It’s Not About The CPU
PostgreSQL 19 ships with parallel autovacuum. The new GUC autovacuum_max_para...
DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化
DeepSeek-V4技术通过架构创新和后训练优化，显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养...
金士顿面向数据中心推出30.72TB的U.2固态硬盘顺序读取速度可达14,000MB/s
金士顿推出DC3000ME固态硬盘，最高容量30.72TB，采用PCIe 5.0协议，顺序读取速度可达14,000MB/s，适用于AI数据中心。该硬盘支持...
DeepSeek不惜代价保住它！V4关键特性被挖出来了
DeepSeek V4技术报告强调批次不变性的重要性，确保同一输入在不同批次下输出一致。尽管实现这一目标增加了工程复杂度和性能代价，但提高了模型的可复现性...
亚马逊云科技大幅扩展与OpenAI的合作伙伴关系
亚马逊云科技宣布与OpenAI扩大合作，推出最新的OpenAI模型和编程Agent Codex，支持企业软件开发。新产品通过Amazon Bedrock提...