量子位 ·

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

华为提出OmniPlacement方法，通过优化混合专家模型中的专家分配，降低推理延迟约10%，提升吞吐量。该方法动态调整专家优先级、冗余部署和实时调度，解决专家负载不均的问题，确保高负载下系统稳定运行，并计划开源。

🎯

❓

OmniPlacement方法通过优化混合专家模型中的专家分配，降低推理延迟约10%，提升吞吐量。

混合专家模型存在专家负载不均的问题，导致推理时间延长和资源利用率低下。

OmniPlacement通过专家重排、层间冗余部署和近实时动态调度来提升推理性能。

华为计划将OmniPlacement方法全面开源，以支持大型MoE模型的实际应用。

在DeepSeek-V3上，推理延迟平均降低约10%，吞吐量提升约10%。

OmniPlacement具有高兼容性、低时延开销、模块化设计和可扩展性等优势。

🏷️

Warp CEO揭秘开源决策：AI Agent时代，人类管理智能体舰队共建终端工具。
知名 AI 工具 Warp 正式开源，旨在探索代理式开发环境。创始人 Zach Lloyd 表示，开源将加速开发并提升社区参与度。Warp 支持多种 AI...
DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）
DeepSeek的识图模式在灰度测试中表现优异，支持快速识别和推理。非思考模式下速度快但准确性需提升；思考模式下推理能力强但耗时较长。该模式有效处理OCR...
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta，提升了编译速度和减少了内存使用。大型项...
Anthropic的Claude Security从封闭预览中推出，扫描您的代码库以发现安全漏洞
On Thursday, Anthropic took Claude Security, a defensive security tool in Cla...
Learn The Most In-Demand Tech Skills for FREE
From April 30 - May 10, Zero To Mastery's entire course catalogue is 100% free.
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...