AdaServe:具有细粒度推测解码的SLO定制化大语言模型服务
原文中文,约500字,阅读约需1分钟。
📝
内容提要
AdaServe是首个通过细粒度推测解码实现SLO定制化的大语言模型服务系统,实验结果显示其SLO达成率和有效吞吐量分别提高了73%和74%。
🎯
关键要点
-
AdaServe是首个通过细粒度推测解码实现SLO定制化的大语言模型服务系统。
-
AdaServe通过预测标记的推测准确性和采用理论最优算法构建令牌树。
-
该系统在满足不同SLO要求的同时优化吞吐量。
-
实验结果显示,AdaServe在SLO达成率和有效吞吐量方面分别提高了73%和74%。
🏷️