💡
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
意大利程序员Salvatore Sanfilippo(antirez)发布了新开源项目ds4.c,专为DeepSeek V4 Flash设计的推理引擎。该项目利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。ds4.c提供CLI和服务器模式,支持本地HTTP服务和磁盘KV缓存,提升了Agent客户端的使用体验。
🎯
关键要点
- Salvatore Sanfilippo(antirez)发布了新开源项目ds4.c,专为DeepSeek V4 Flash设计的推理引擎。
- ds4.c利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。
- 项目提供CLI和服务器模式,支持本地HTTP服务和磁盘KV缓存,提升了Agent客户端的使用体验。
- ds4.c专注于DeepSeek V4 Flash模型,提供专用的Metal图执行器,推理速度更快,激活参数量更少。
- KV Cache机制将对话状态存储在磁盘上,避免重复预填充,提高了效率。
- 项目支持与主流Agent工具的对接,如Claude Code和Pi,提供了详细的配置方案。
- antirez在README中坦诚表示该软件在GPT 5.5的辅助下开发,强调人类主导思路和测试。
❓
延伸问答
DeepSeek V4 Flash推理引擎的主要特点是什么?
DeepSeek V4 Flash推理引擎专为该模型设计,利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。
ds4.c项目如何提高推理效率?
ds4.c项目通过KV Cache机制将对话状态存储在磁盘上,避免重复预填充,从而提高了推理效率。
如何在本地运行ds4.c推理引擎?
用户可以通过编译ds4.c项目,使用CLI或服务器模式运行,支持本地HTTP服务和磁盘KV缓存。
ds4.c与主流Agent工具的兼容性如何?
ds4.c支持与Claude Code和Pi等主流Agent工具的对接,提供详细的配置方案。
使用ds4.c时,推理速度有多快?
在MacBook Pro M3 Max上,ds4.c的推理速度可达到258.52 t/s,长上下文预填充时速度更高。
antirez在开发ds4.c时使用了什么技术?
antirez在开发ds4.c时使用了GPT 5.5的辅助,强调人类主导思路和测试。
➡️