本研究提出Ascendra系统,旨在解决大语言模型服务中的优先级冲突问题。该系统通过动态分配GPU资源,实现高吞吐量与低延迟的平衡,吞吐量提升最多可达1.7倍。
完成下面两步后,将自动完成登录并继续当前操作。