量子位 ·

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

DeepSeek推出的DualPath推理框架通过引入存储至解码引擎的路径，解决了I/O瓶颈，离线推理吞吐量提升1.87倍，在线服务提升1.96倍，有效利用闲置带宽，显著降低延迟。

🎯

❓

DualPath推理框架通过引入存储至解码引擎的第二条路径，解决了I/O瓶颈，优化了KV-Cache加载速度。

在660B规模的生产级模型中，DualPath使离线推理吞吐量提高了1.87倍，在线服务吞吐量提升1.96倍。

DualPath通过动态选择路径重新分配网络负载，缓解了预填充侧的带宽压力。

双路径模型允许KV-Cache先加载至解码引擎，再传输至预填充引擎，从而优化数据搬运效率。

DualPath显著提升了智能体LLM推理系统的效率，降低了延迟，并优化了资源利用。

论文第一作者是吴永彤，他是北京大学的博士生。

🏷️

在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
面向电商直播场景的全模态大模型推理加速方案
本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布，解决了vLLM...
Zed AI 白嫖免费模型，搭配 DeepSeek v4，玩转 Agent 编程技巧 - 曦远Code
Zed 编辑器功能灵活，支持多种 AI 模型，用户可通过 ACP 协议配置 agent。虽然 AI 功能有限，但适合日常开发和文档生成，提供免费模型使用，...
OpenHarness框架的整体总结
文章总结了香港大学的OpenHarness框架，涵盖智能体引擎、工具与权限控制、记忆与技能，以及智能体协作与扩展等核心概念。
一分钟读论文：《自动合成多智能体漏洞发现方案》
加州大学圣塔芭芭拉分校的研究者提出了AgentFlow框架，该框架利用类型化图DSL自动合成多智能体协作方案，成功在Google Chrome中发现了10...
一分钟读论文：《多智能体工作流中完全循环子任务图的灵活性与成本》
黎巴嫩美国大学研究者发表的论文《Complete Cyclic Subtask Graphs for Tool-Using LLM Agents: Fle...