Ascendra: Dynamic Request Prioritization for Efficient Large Language Model Services

本研究针对大型语言模型(LLM)服务中效率问题,提出了Ascendra系统,旨在同时满足首次令牌响应时间和令牌间响应时间的服务水平目标。Ascendra通过将GPU资源划分为低优先级和高优先级实例,动态调整请求处理优先级,从而在提升吞吐量的同时确保低延迟。评估结果显示,Ascendra的系统吞吐量相比现有方案提高了多达1.7倍。

本研究提出Ascendra系统,旨在解决大语言模型服务中的优先级冲突问题。该系统通过动态分配GPU资源,实现高吞吐量与低延迟的平衡,吞吐量提升最多可达1.7倍。

原文英文,约100词,阅读约需1分钟。发表于:
阅读原文