爱范儿 ·

DeepSeeK 突然发布 DSpark，让 AI 的回答不再「挤牙膏」

💡 原文中文，约6300字，阅读约需15分钟。

📝

内容提要

DeepSeek与北京大学联合发布了论文《DSpark》，提出了一种新的推理加速框架。DSpark通过半自回归架构和基于置信度的验证，显著提高了生成速度，单用户生成速度提升57%至85%。该框架在真实用户流量中表现优异，解决了大模型推理中的延迟问题，并优化了候选token的生成和验证过程。DeepSeek还开源了DSpark的模型权重和相关代码库。

🎯

关键要点

DeepSeek与北京大学联合发布论文《DSpark》，提出了一种新的推理加速框架。
DSpark通过半自回归架构和基于置信度的验证，显著提高了生成速度，单用户生成速度提升57%至85%。
DSpark在真实用户流量中表现优异，解决了大模型推理中的延迟问题。
DSpark优化了候选token的生成和验证过程，提升了系统的吞吐能力。
DeepSeek开源了DSpark的模型权重和相关代码库，推动了推理加速技术的发展。

🔎

延伸解读

DSpark的技术优势

DSpark通过半自回归架构和基于置信度的验证，显著提升了生成速度。这种新架构结合了并行生成和顺序验证的优点，使得生成的候选token在质量和速度上都有所提高，尤其适用于高交互场景。

开源的意义

DeepSeek开源DSpark的模型权重和代码库，标志着推理加速技术的进一步发展。这不仅促进了技术的透明性，也为其他研究者和开发者提供了宝贵的资源，推动整个行业的进步。

系统负载与验证策略

DSpark的验证策略根据系统负载动态调整，确保在高并发情况下仍能保持高效的吞吐能力。这种灵活性使得DSpark在实际应用中表现更为优越，能够有效应对不同的用户请求和系统压力。

❓

延伸问答

DSpark的主要创新点是什么？

DSpark通过半自回归架构和基于置信度的验证，显著提高了生成速度，解决了大模型推理中的延迟问题。

DSpark如何提高生成速度？

DSpark采用半自回归架构，结合轻量级顺序模块和置信度调度的验证，优化了候选token的生成和验证过程。

DSpark在真实用户流量中的表现如何？

DSpark在真实用户流量中表现优异，单用户生成速度提升57%至85%，并提高了系统的吞吐能力。

DeepSeek为什么选择开源DSpark？

DeepSeek开源DSpark的模型权重和代码库，旨在推动推理加速技术的发展，并分享提高推理效率的方法。

DSpark与传统推测解码方案相比有什么优势？

DSpark在生成候选token时结合了并行和顺序生成的优点，同时根据系统负载动态调整验证长度，提升了效率。

DSpark的验证机制是如何工作的？

DSpark引入基于置信度的验证机制，根据候选位置的置信度动态决定验证的token数量，以提高接受率。

🏷️