推测性预填充:通过轻量级和无训练的令牌重要性估计加速TTFT
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了SpecPrefill框架,通过轻量级模型预测重要令牌,显著提升大型语言模型的推理速度,端到端QPS提高7倍,TTFT改进7.66倍。
🎯
关键要点
- 本研究提出了SpecPrefill框架。
- SpecPrefill通过轻量级模型预测重要令牌。
- 该框架显著提升大型语言模型的推理速度。
- 端到端QPS提高7倍。
- TTFT改进7.66倍。
🏷️
标签
➡️