AdaServe:具有细粒度推测解码的SLO定制化大语言模型服务
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
AdaServe是首个通过细粒度推测解码实现SLO定制化的大语言模型服务系统,实验结果显示其SLO达成率和有效吞吐量分别提高了73%和74%。
🎯
关键要点
- AdaServe是首个通过细粒度推测解码实现SLO定制化的大语言模型服务系统。
- AdaServe通过预测标记的推测准确性和采用理论最优算法构建令牌树。
- 该系统在满足不同SLO要求的同时优化吞吐量。
- 实验结果显示,AdaServe在SLO达成率和有效吞吐量方面分别提高了73%和74%。
➡️