Apple Machine Learning Research ·

推测流：无需辅助模型的快速大模型推理

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

我们提出了一种单模型推测流方法，通过将草稿融入目标模型，并将微调目标改为未来n-gram预测，加速大模型推理。此方法在摘要和结构化查询任务中加速1.8-3.1倍，无质量损失，参数高效，比Medusa架构快且参数少10000倍，适合资源有限的设备。

🎯

关键要点

提出了一种单模型推测流方法，通过将草稿融入目标模型。
微调目标改为未来n-gram预测，以加速大模型推理。
在摘要和结构化查询任务中加速1.8-3.1倍，无质量损失。
该方法参数高效，比Medusa架构快且参数少10000倍。
适合资源有限的设备。

❓

延伸问答

什么是推测流方法？

推测流方法是一种单模型推测解码技术，通过将草稿融入目标模型来加速大模型推理。

推测流方法如何加速大模型推理？

通过将微调目标改为未来n-gram预测，推测流方法在多种任务中加速1.8-3.1倍。

推测流方法在性能上与Medusa架构相比如何？

推测流方法在速度上与Medusa架构相当，但使用的额外参数少约10000倍。

推测流方法适合哪些设备使用？

推测流方法适合资源有限的设备，因其参数高效。

推测流方法在具体任务中表现如何？

在摘要和结构化查询等任务中，推测流方法无质量损失地加速了推理过程。

推测流方法的微调目标是什么？

推测流方法的微调目标是未来n-gram预测，而不是下一个标记预测。

🏷️

标签

n-gram预测加速推理单模型推测流参数高效大模型资源有限设备

➡️

继续阅读

OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
有传言称谷歌正在研发名为Frozen v2的芯片将AI模型部分蚀刻到芯片上提高吞吐量
#人工智能谷歌也尝试将模型权重直接蚀刻到硅晶片中，谷歌正在研发的 Frozen v2 芯片 token 吞吐量是谷歌现有 TPU 单元的 6~10 倍。...
小红书大模型IMO满分夺金，第三题解法让冠军选手直呼优雅
中国大模型首次获得IMO官方金牌水平认证
Building multi-Region resiliency for AWS CloudFormation custom resource deployment
AWS CloudFormation is the foundational tool of infrastructure-as-code for tho...
ReSharper C++ 2026.2: C++26 Reflection, ISPC Language Support, And More
ReSharper C++ 2026.2 is out, bringing initial support for C++26 reflection, t...