dotNET跨平台 ·

Redis之父antirez发布DeepSeek V4 Flash专用推理引擎，128GB MacBook本地跑284B参数大模型

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

意大利程序员Salvatore Sanfilippo（antirez）发布了新开源项目ds4.c，专为DeepSeek V4 Flash设计的推理引擎。该项目利用Metal GPU，支持高达100万Token的上下文窗口，推理速度极快，适合长文档处理。ds4.c提供CLI和服务器模式，支持本地HTTP服务和磁盘KV缓存，提升了Agent客户端的使用体验。

🎯

关键要点

Salvatore Sanfilippo（antirez）发布了新开源项目ds4.c，专为DeepSeek V4 Flash设计的推理引擎。
ds4.c利用Metal GPU，支持高达100万Token的上下文窗口，推理速度极快，适合长文档处理。
项目提供CLI和服务器模式，支持本地HTTP服务和磁盘KV缓存，提升了Agent客户端的使用体验。
ds4.c专注于DeepSeek V4 Flash模型，提供专用的Metal图执行器，推理速度更快，激活参数量更少。
KV Cache机制将对话状态存储在磁盘上，避免重复预填充，提高了效率。
项目支持与主流Agent工具的对接，如Claude Code和Pi，提供了详细的配置方案。
antirez在README中坦诚表示该软件在GPT 5.5的辅助下开发，强调人类主导思路和测试。

🔎

延伸解读

专注于DeepSeek V4 Flash的优势

ds4.c推理引擎专为DeepSeek V4 Flash量身定制，采用Metal GPU架构，能够在激活参数量较少的情况下实现更快的推理速度。这种专一性使得它在处理长文档和复杂问题时表现优异，尤其适合需要高效上下文管理的应用场景。

KV Cache机制的创新

ds4.c引入的KV Cache机制将对话状态存储在磁盘上，避免了重复预填充的低效。这一设计不仅提升了推理效率，还使得在本地设备上运行大模型成为可能，用户可以在128GB内存的MacBook上获得接近有状态服务的体验。

与主流Agent工具的兼容性

ds4.c提供了与Claude Code和Pi等主流Agent工具的对接方案，用户可以通过简单的配置将其集成到现有工作流中。这种兼容性为开发者提供了更大的灵活性，使得在不同环境中使用ds4.c变得更加便捷。

❓

延伸问答

DeepSeek V4 Flash推理引擎的主要特点是什么？

DeepSeek V4 Flash推理引擎专为该模型设计，利用Metal GPU，支持高达100万Token的上下文窗口，推理速度极快，适合长文档处理。

ds4.c项目如何提高推理效率？

ds4.c项目通过KV Cache机制将对话状态存储在磁盘上，避免重复预填充，从而提高了推理效率。

如何在本地运行ds4.c推理引擎？

用户可以通过编译ds4.c项目，使用CLI或服务器模式运行，支持本地HTTP服务和磁盘KV缓存。

ds4.c与主流Agent工具的兼容性如何？

ds4.c支持与Claude Code和Pi等主流Agent工具的对接，提供详细的配置方案。

使用ds4.c时，推理速度有多快？

在MacBook Pro M3 Max上，ds4.c的推理速度可达到258.52 t/s，长上下文预填充时速度更高。

antirez在开发ds4.c时使用了什么技术？

antirez在开发ds4.c时使用了GPT 5.5的辅助，强调人类主导思路和测试。

🏷️