量子位 ·

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

DeepSeek推出的DualPath推理框架通过引入存储至解码引擎的路径，解决了I/O瓶颈，离线推理吞吐量提升1.87倍，在线服务提升1.96倍，有效利用闲置带宽，显著降低延迟。

🎯

关键要点

DeepSeek推出了DualPath推理框架，解决了智能体推理中的I/O瓶颈。
DualPath通过优化KV-Cache加载速度，确保计算资源不被存储读取拖累。
引入了存储至解码引擎的第二条路径，改变了传统的单路径加载模式。
在660B规模的生产级模型中，离线推理吞吐量提高了1.87倍，在线服务吞吐量提升1.96倍。
DualPath通过动态选择路径重新分配网络负载，缓解了预填充侧的带宽压力。
当前智能体应用中，KV-Cache命中率高达95%，推理性能瓶颈转移至数据搬运。
DualPath构建了双路径模型，允许KV-Cache先加载至解码引擎，再传输至预填充引擎。
系统通过流量管理和自适应请求调度器优化了缓存搬运与模型计算的通信。
DualPath在不增加硬件成本的前提下，大幅提升了智能体LLM推理系统的效率。
论文第一作者吴永彤是北京大学博士生，专注于推理系统的工程优化与规模化部署。

❓

延伸问答

DualPath推理框架的主要创新是什么？

DualPath推理框架通过引入存储至解码引擎的第二条路径，解决了智能体推理中的I/O瓶颈，优化了KV-Cache加载速度。

DualPath在推理性能上有哪些具体提升？

在660B规模的生产级模型中，DualPath的离线推理吞吐量提高了1.87倍，在线服务吞吐量提升了1.96倍。

为什么DualPath要引入双路径模型？

DualPath引入双路径模型是为了缓解预填充侧的带宽压力，并优化KV-Cache的加载过程，避免计算资源被存储读取拖累。

DualPath如何优化缓存搬运与模型计算的通信？

DualPath通过流量管理和自适应请求调度器优化了缓存搬运与模型计算的通信，确保两者互不干扰。

当前智能体应用中KV-Cache的命中率是多少？

在当前智能体应用中，KV-Cache的命中率高达95%。

论文的第一作者是谁，他的研究方向是什么？

论文的第一作者是吴永彤，他的研究方向聚焦于推理系统的工程优化与规模化部署。

🏷️

继续阅读

Meta华人实习生搞出超级智能体！自己写代码实现自我进化
Meta研究团队推出了新一代超级智能体——达尔文哥德尔机（DGM），结合了哥德尔机与开放算法，实现自我迭代与改进。DGM在编程任务中表现出色，但在非编程领...
Collaborator AI 全景解析：无限画布下的智能体开发与持久会话管理
Collaborator AI是一个集成终端、文件和无限画布的智能体开发环境，简化智能体管理，支持多智能体同时操作，减少上下文切换，提高工作效率。它支持跨...
7/24 Office：一个能自修复、自写工具、自我进化的智能体
一名程序员利用纯Python和少量工具，开发出一个自我进化的AI代理系统，具备自修复、自动编写工具和多模态处理能力，能够24小时运行，支持定时任务和多用户管理。
Pretext来了：浏览器排版逻辑被重写，性能直接起飞
Pretext是一个新型前端库，通过预计算文本布局来避免浏览器重排，从而显著提升性能。它支持多种语言，解决了传统排版的诸多问题，改变了开发者对浏览器的依赖...
AI Agent 正在进入工程化深水区：从代码模型、生产框架到多智能体协作协议
AI Agent 的竞争重心正在转向工程系统能力，强调专用化、生产化、分层化和标准化。未来的 Agent 将成为可治理、可扩展的软件系统，关注任务适配、框...
ReSharper C++ 2026.1：更好的性能、改进的Unreal Engine工作流程和语言支持更新
ReSharper C++ 2026.1发布，提升了大型C++项目的性能，支持C++26/C23等新标准，改进了Unreal Engine开发工具，增强了...