配这种CPU,GPU单卡就能跑满血DeepSeek-R1,至强+AMX让预填充速度起飞

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

清华大学KVCache.AI团队与趋境科技推出KTransformers项目,支持在24G显存下运行DeepSeek-R1,显著提升推理速度。该项目通过异构计算和CPU的AMX指令集加速,预填充速度达到286 tokens/s,生成速度为14 tokens/s,降低了大模型的运行门槛,推动了本地部署的可能性。

🎯

关键要点

  • 清华大学KVCache.AI团队与趋境科技推出KTransformers项目,支持在24G显存下运行DeepSeek-R1。
  • KTransformers项目通过异构计算和CPU的AMX指令集加速,预填充速度达到286 tokens/s,生成速度为14 tokens/s。
  • 该项目降低了大模型的运行门槛,推动了本地部署的可能性。
  • DeepSeek-R1的推理服务器频繁宕机,导致中小团队难以承受高昂的成本。
  • KTransformers项目允许在仅有24GB显存的消费级显卡上流畅运行236B的大模型。
  • KTransformers团队采用了基于计算强度的offload策略和高性能的CPU/GPU算子来加速推理速度。
  • DeepSeek-R1/V3采用MoE架构,模型参数稀疏性强,减少了计算资源需求。
  • KTransformers兼容Huggingface Transformers的API与ChatGPT式Web界面,降低了上手难度。
  • 项目支持Windows和Linux平台,方便用户运行。
  • 未来计划升级到至强6处理器,寻求进一步的性能提升。

延伸问答

KTransformers项目的主要功能是什么?

KTransformers项目支持在24G显存下运行DeepSeek-R1,显著提升推理速度,降低了大模型的运行门槛。

KTransformers如何提升推理速度?

KTransformers通过异构计算和CPU的AMX指令集加速,预填充速度达到286 tokens/s,生成速度为14 tokens/s。

KTransformers项目对中小团队有什么帮助?

该项目降低了大模型的运行门槛,使中小团队能够在仅有24GB显存的消费级显卡上流畅运行236B的大模型,减少了高昂的成本。

DeepSeek-R1的MoE架构有什么特点?

DeepSeek-R1采用MoE架构,具有强稀疏性,执行推理时只激活部分模型参数,减少了计算资源需求。

KTransformers支持哪些平台?

KTransformers支持Windows和Linux平台,方便用户运行。

未来KTransformers有什么升级计划?

未来计划升级到至强6处理器,寻求进一步的性能提升,特别是AMX指令集的增强。

➡️

继续阅读