Redis之父antirez发布DeepSeek V4 Flash专用推理引擎,128GB MacBook本地跑284B参数大模型

Redis之父antirez发布DeepSeek V4 Flash专用推理引擎,128GB MacBook本地跑284B参数大模型

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

意大利程序员Salvatore Sanfilippo(antirez)发布了新开源项目ds4.c,专为DeepSeek V4 Flash设计的推理引擎。该项目利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。ds4.c提供CLI和服务器模式,支持本地HTTP服务和磁盘KV缓存,提升了Agent客户端的使用体验。

🎯

关键要点

  • Salvatore Sanfilippo(antirez)发布了新开源项目ds4.c,专为DeepSeek V4 Flash设计的推理引擎。
  • ds4.c利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。
  • 项目提供CLI和服务器模式,支持本地HTTP服务和磁盘KV缓存,提升了Agent客户端的使用体验。
  • ds4.c专注于DeepSeek V4 Flash模型,提供专用的Metal图执行器,推理速度更快,激活参数量更少。
  • KV Cache机制将对话状态存储在磁盘上,避免重复预填充,提高了效率。
  • 项目支持与主流Agent工具的对接,如Claude Code和Pi,提供了详细的配置方案。
  • antirez在README中坦诚表示该软件在GPT 5.5的辅助下开发,强调人类主导思路和测试。

延伸问答

DeepSeek V4 Flash推理引擎的主要特点是什么?

DeepSeek V4 Flash推理引擎专为该模型设计,利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。

ds4.c项目如何提高推理效率?

ds4.c项目通过KV Cache机制将对话状态存储在磁盘上,避免重复预填充,从而提高了推理效率。

如何在本地运行ds4.c推理引擎?

用户可以通过编译ds4.c项目,使用CLI或服务器模式运行,支持本地HTTP服务和磁盘KV缓存。

ds4.c与主流Agent工具的兼容性如何?

ds4.c支持与Claude Code和Pi等主流Agent工具的对接,提供详细的配置方案。

使用ds4.c时,推理速度有多快?

在MacBook Pro M3 Max上,ds4.c的推理速度可达到258.52 t/s,长上下文预填充时速度更高。

antirez在开发ds4.c时使用了什么技术?

antirez在开发ds4.c时使用了GPT 5.5的辅助,强调人类主导思路和测试。

➡️

继续阅读