机器之心 ·

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

翼支付的研究成果《Falcon》提出了一种增强的半自回归投机解码框架，显著提升了大型语言模型的推理速度，达到了2.91-3.51倍的加速比。该方法通过改进的投机采样和专门设计的解码树，提高了模型的并行性和输出质量，已在多个实际业务中成功应用。

🎯

翼支付的研究成果《Falcon》提出了一种增强的半自回归投机解码框架，显著提升了大型语言模型的推理速度，达到了2.91-3.51倍的加速比。
Falcon方法通过改进的投机采样和专门设计的解码树，提高了模型的并行性和输出质量，已在多个实际业务中成功应用。
大型语言模型在推理过程中面临显著的计算开销和延迟瓶颈，现有的投机采样方法存在准确性不足的问题。
Falcon集成了Coupled Sequential Glancing Distillation（CSGD）方法，提高了SAR draft model的token接受率。
Falcon设计了一种专门的解码树，支持在一次前向传播中生成多个token，进一步加快了推理速度。
Falcon的架构由Embedding Layer、LM-Head和半自回归解码Head三个组件构成，能够同时预测接下来的多个标记。
CSGD通过用真实token和hidden states替换初始预测，改善了token之间的上下文信息，提高了预测的准确性和连贯性。
Custom-Designed Decoding Tree支持draft model在一次前向传递中生成多个token，显著提高了推测效率。
Falcon在多个数据集和模型上进行了广泛的实验，展现了优越的性能。
Falcon技术已转化至翼支付大模型产品InsightAI平台，服务多个业务应用，降低了推理计算相关成本。
投机采样是大模型推理加速的核心方法，Falcon方法显著提升了draft model的预测准确率和采样效率。

❓

Falcon方法旨在增强大型语言模型的并行性和输出质量，从而显著提升推理速度。

Falcon通过改进的投机采样和专门设计的解码树，支持在一次前向传播中生成多个token，从而提高推理速度。

Falcon方法的加速比达到了2.91-3.51倍。

Falcon技术已应用于翼支付的多个业务，如数字人客服、借钱-翼小橙等。

Falcon集成了Coupled Sequential Glancing Distillation（CSGD）方法，改善了token之间的上下文信息，提高了预测的准确性。

Falcon的架构主要由Embedding Layer、LM-Head和半自回归解码Head三个组件构成。

🏷️

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一
阶跃星辰推出的Step 3.7 Flash模型在速度和成本上表现优异，推理速度超过400 tokens/s，单任务成本仅为Claude Opus 4.6的...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
当你的手机在机场被扣押时会发生什么
明尼苏达州的劳动组织者Janette Zahia Corcelius在返回美国时，她的手机被海关扣押并未归还。她提起诉讼，认为海关的行为违反了宪法第四修正...