内容提要
DeepSeek V4发布后,开发者antirez推出了专属推理引擎ds4.c,旨在提升Mac上的运行效率。该引擎使用C和Metal编写,专注于本地推理,支持高效的量化和KV缓存。测试表明,ds4.c在高端Mac上表现优异,生成速度快。antirez希望通过此项目推动本地推理的发展,并强调AI辅助开发的重要性。
关键要点
-
DeepSeek V4发布后,antirez推出了专属推理引擎ds4.c,旨在提升Mac上的运行效率。
-
ds4.c使用C和Metal编写,专注于本地推理,支持高效的量化和KV缓存。
-
在高端Mac上,ds4.c的生成速度表现优异,测试结果显示在128GB内存的MacBook Pro M3 Max上,生成速度达到26.68 token/s。
-
ds4.c采用非对称量化,仅对路由的MoE专家层进行2-bit量化,其他组件保持Q8精度。
-
KV缓存被搬到硬盘上,允许在后续请求中直接从磁盘加载状态,提升效率。
-
内置OpenAI和Anthropic两套API兼容层,支持多种agent客户端的配置。
-
antirez希望通过ds4.c推动本地推理的发展,并强调AI辅助开发的重要性。
-
未来可能会考虑CUDA支持,但目前项目保持小、快、专注的特点。
延伸问答
ds4.c推理引擎的主要功能是什么?
ds4.c推理引擎旨在提升DeepSeek V4在Mac上的运行效率,专注于本地推理。
ds4.c是用什么技术开发的?
ds4.c使用C和Metal编写,专注于本地推理。
在高端Mac上,ds4.c的性能表现如何?
在128GB内存的MacBook Pro M3 Max上,ds4.c的生成速度达到26.68 token/s。
ds4.c如何处理KV缓存以提升效率?
ds4.c将KV缓存搬到硬盘上,允许后续请求直接从磁盘加载状态,提升效率。
antirez对本地推理的看法是什么?
antirez希望通过ds4.c推动本地推理的发展,并强调AI辅助开发的重要性。
ds4.c是否支持CUDA?
目前ds4.c保持小、快、专注的特点,未来可能考虑CUDA支持,但尚未确定。