小红花·文摘 - 小红花技术领袖俱乐部

文章讨论了PD分离与引擎功能的适配，介绍了投机解码及其在大型自回归模型中的应用。通过引入小模型进行多次自回归，提升推理效率。探讨了Eagle 3的实现细节及其对推理性能的影响，得出礼貌性输入不影响推理性能的结论。

SpS, Eagle3: 礼貌一点会影响推理性能么?

学习让我快乐 ·

Workers AI获得速度提升、批量工作负载支持、更多LoRA、新模型和全新仪表板

Workers AI获得速度提升、批量工作负载支持、更多LoRA、新模型和全新仪表板

The Cloudflare Blog ·

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

机器之心 ·

本研究提出了一种新的动态草稿长度策略SVIP，旨在解决投机解码中固定草稿长度的问题。SVIP根据草稿词元分布的熵自适应调整草稿长度，实验结果表明其在主要基准测试中可实现最高20%的加速效果。

Draft Models Know When to Stop: A Self-Validating Length Strategy for Speculative Decoding

BriefGPT - AI 论文速递 ·

本文介绍了一种通过知识蒸馏和投机解码技术（DistillSpec）加速大型语言模型推理的方法。该方法在多项基准测试中实现了10-45%的加速，并有效降低了解码延迟。结合轻量级草稿模型和新采样机制，显著提高了解码效率，实验结果显示在多种模型架构中优于现有方法。

通过特征采样和部分对齐蒸馏提升无损推测解码能力

BriefGPT - AI 论文速递 ·

ACL 2024 | 美团技术团队精选论文解读

美团技术团队 ·