小红花·文摘

本研究提出了ALISE框架，旨在解决大语言模型服务系统中的调度问题，通过优化作业优先级来减少排队延迟。实验结果表明，在相同延迟下，ALISE显著提高了推理服务的吞吐量。