Ascendra: Dynamic Request Prioritization for Efficient Large Language Model Services

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出Ascendra系统,旨在解决大语言模型服务中的优先级冲突问题。该系统通过动态分配GPU资源,实现高吞吐量与低延迟的平衡,吞吐量提升最多可达1.7倍。

🎯

关键要点

  • 本研究提出Ascendra系统,旨在解决大语言模型服务中的优先级冲突问题。
  • Ascendra系统通过动态分配GPU资源,实现高吞吐量与低延迟的平衡。
  • 系统吞吐量提升最多可达1.7倍。
  • Ascendra结合低优先级和高优先级实例,成功满足不同服务水平目标(SLOs)。
  • 实验评估显示,Ascendra在满足时间到第一个标记(TTFT)和标记间时间(TBT)的SLOs的同时,显著提高了系统性能。
➡️

继续阅读