SpecServe:具备自适应推测解码的高效、大语言模型服务及SLO感知
📝
内容提要
本研究针对大型语言模型服务在动态请求模式下面临的低推理延迟和未能满足服务水平目标(SLO)的挑战,提出了SpecServe系统。该系统通过动态调整推测策略来适应实时请求负载和系统配置,显著提高了性能并保持了高SLO达成率,实验结果显示相对于当前最先进的推测推理系统,速度提升可达1.14倍至14.3倍。
🏷️
标签
➡️