BriefGPT - AI 论文速递 ·

EMS-SD：高效的多样本猜测解码用于加速大型语言模型

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文介绍了一种基于“假设采样”的算法，能够将Transformer解码速度提高2至2.5倍，同时保持样本质量。该方法通过草稿模型生成候选分段并进行批量验证，显著提升接受率。实验结果显示，该算法在多个数据集上优于传统解码方法，并在不同任务中实现了显著的内存速度提升。

🎯

❓

EMS-SD算法通过假设采样方法，将解码速度提高2至2.5倍，同时保持样本质量。

该算法通过草稿模型生成多个候选分段，并进行批量验证，从而提升接受率。

实验结果显示，EMS-SD算法在多个数据集上优于传统解码方法，并实现了显著的内存速度提升。

该算法在不同任务中实现了最高可达2.37倍的内存速度提升。

该算法在保持模型准确性的同时，显著提高了生成草稿令牌的准确性和解码速度。

该方法不需要额外的神经网络训练和内存占用，是一种即插即用的推理加速解决方案。

🏷️