Redis之父下场,给DeepSeek V4单独造了一台推理引擎

Redis之父下场,给DeepSeek V4单独造了一台推理引擎

💡 原文中文,约3800字,阅读约需10分钟。
📝

内容提要

DeepSeek V4发布后,开发者antirez推出了专属推理引擎ds4.c,旨在提升Mac上的运行效率。该引擎使用C和Metal编写,专注于本地推理,支持高效的量化和KV缓存。测试表明,ds4.c在高端Mac上表现优异,生成速度快。antirez希望通过此项目推动本地推理的发展,并强调AI辅助开发的重要性。

🎯

关键要点

  • DeepSeek V4发布后,antirez推出了专属推理引擎ds4.c,旨在提升Mac上的运行效率。

  • ds4.c使用C和Metal编写,专注于本地推理,支持高效的量化和KV缓存。

  • 在高端Mac上,ds4.c的生成速度表现优异,测试结果显示在128GB内存的MacBook Pro M3 Max上,生成速度达到26.68 token/s。

  • ds4.c采用非对称量化,仅对路由的MoE专家层进行2-bit量化,其他组件保持Q8精度。

  • KV缓存被搬到硬盘上,允许在后续请求中直接从磁盘加载状态,提升效率。

  • 内置OpenAI和Anthropic两套API兼容层,支持多种agent客户端的配置。

  • antirez希望通过ds4.c推动本地推理的发展,并强调AI辅助开发的重要性。

  • 未来可能会考虑CUDA支持,但目前项目保持小、快、专注的特点。

延伸问答

ds4.c推理引擎的主要功能是什么?

ds4.c推理引擎旨在提升DeepSeek V4在Mac上的运行效率,专注于本地推理。

ds4.c是用什么技术开发的?

ds4.c使用C和Metal编写,专注于本地推理。

在高端Mac上,ds4.c的性能表现如何?

在128GB内存的MacBook Pro M3 Max上,ds4.c的生成速度达到26.68 token/s。

ds4.c如何处理KV缓存以提升效率?

ds4.c将KV缓存搬到硬盘上,允许后续请求直接从磁盘加载状态,提升效率。

antirez对本地推理的看法是什么?

antirez希望通过ds4.c推动本地推理的发展,并强调AI辅助开发的重要性。

ds4.c是否支持CUDA?

目前ds4.c保持小、快、专注的特点,未来可能考虑CUDA支持,但尚未确定。

➡️

继续阅读