AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

💡 原文中文,约4700字,阅读约需12分钟。
📝

内容提要

翼支付的研究成果《Falcon》提出了一种增强的半自回归投机解码框架,显著提升了大型语言模型的推理速度,达到了2.91-3.51倍的加速比。该方法通过改进的投机采样和专门设计的解码树,提高了模型的并行性和输出质量,已在多个实际业务中成功应用。

🎯

关键要点

  • 翼支付的研究成果《Falcon》提出了一种增强的半自回归投机解码框架,显著提升了大型语言模型的推理速度,达到了2.91-3.51倍的加速比。
  • Falcon方法通过改进的投机采样和专门设计的解码树,提高了模型的并行性和输出质量,已在多个实际业务中成功应用。
  • 大型语言模型在推理过程中面临显著的计算开销和延迟瓶颈,现有的投机采样方法存在准确性不足的问题。
  • Falcon集成了Coupled Sequential Glancing Distillation(CSGD)方法,提高了SAR draft model的token接受率。
  • Falcon设计了一种专门的解码树,支持在一次前向传播中生成多个token,进一步加快了推理速度。
  • Falcon的架构由Embedding Layer、LM-Head和半自回归解码Head三个组件构成,能够同时预测接下来的多个标记。
  • CSGD通过用真实token和hidden states替换初始预测,改善了token之间的上下文信息,提高了预测的准确性和连贯性。
  • Custom-Designed Decoding Tree支持draft model在一次前向传递中生成多个token,显著提高了推测效率。
  • Falcon在多个数据集和模型上进行了广泛的实验,展现了优越的性能。
  • Falcon技术已转化至翼支付大模型产品InsightAI平台,服务多个业务应用,降低了推理计算相关成本。
  • 投机采样是大模型推理加速的核心方法,Falcon方法显著提升了draft model的预测准确率和采样效率。
➡️

继续阅读