BriefGPT - AI 论文速递 ·

协调的投机采样

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于“假设采样”的算法，显著加速Transformer解码过程，提升速度2至8.7倍，同时保持生成质量。通过结合自回归抽样与新选择算法，提出了SpecDec++和早期退出推理等方法，优化了大型语言模型的推理效率。实验结果显示，这些方法在多个任务中均表现出色。

🎯

❓

基于假设采样的算法是一种加速Transformer解码过程的技术，能够将解码速度提升2至2.5倍，同时保持样本质量和预测分布。

SpecDec++通过训练好的接受概率预测模块自适应地确定候选长度，实现了2.04倍至2.26倍的解码加速。

早期退出推理（EESD）通过在前N层后引入早期退出结构，提高初步令牌的质量，从而显著加速解码过程。

级联的投机式编码方法通过垂直和水平级联消除自回归生成，提高大型语言模型的效率，进一步提升72%的加速度。

Speculative Streaming是一种推测解码方法，通过将起草融入目标模型，提高解码速度1.8-3.1倍，同时保持生成质量。

离散扩散模型用于生成草稿序列，实现草拟和验证步骤的并行化，从而显著加快推理过程，速度提升可达8.7倍。

🏷️