小红花·文摘

本研究提出Ascendra系统，旨在解决大语言模型服务中的优先级冲突问题。该系统通过动态分配GPU资源，实现高吞吐量与低延迟的平衡，吞吐量提升最多可达1.7倍。