量子位 ·

梁文锋署名的DSpark，看懂这10个点就够了！

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

DeepSeek的新论文DSpark提出了一种通过系统工程和模型协同设计来提升大模型推理速度的方法。该方法利用GPU的特性进行连续批处理，结合小模型的快速猜测和大模型的验证，显著提高推理效率。DSpark通过优化草稿模型和动态调整验证长度，实现了端到端的性能提升，并已开源相关代码供开发者使用。

🎯

🔎

DSpark的创新在于将推测解码与验证过程结合，通过草稿模型快速生成候选token，再由大模型进行批量验证。这种“猜+验”的方式显著提升了推理速度，尤其在高并发场景下表现突出。理解这一机制有助于开发者在实际应用中优化模型推理效率。

DSpark引入的置信度头可以根据实时负载动态调整验证长度，这一设计提升了系统的自适应能力。开发者在使用DSpark时，应关注如何根据不同任务和服务器负载灵活调整参数，以实现最佳性能。

DSpark的设计强调在速度与准确性之间的平衡。草稿模型的构造和验证过程的优化需要权衡，过多的候选token可能导致计算资源浪费。因此，开发者在实施时需谨慎选择草稿模型的参数，以避免性能下降。

❓

DSpark的主要创新点在于将并行和串行推理结合，通过草稿模型和动态验证长度提升推理速度。

DSpark利用GPU的连续批处理特性，将多个请求的token放入同一个batch中，从而提高显存读取效率。

DSpark通过直接使用目标模型最后一层的隐藏状态，并在其上加1-2层Transformer头来构造草稿模型，从而提高速度和准确性。

DSpark的置信度头根据实时负载动态调整每个草稿位置的验证长度，提高系统的自适应能力。

DSpark通过评估每个候选token在验证中存活的概率，动态匹配最优的验证长度，以提高推理效率。

DSpark的开源代码允许开发者直接使用和修改，支持他们为自己的模型训练草稿器，促进技术的实操和应用。

🏷️